導(dǎo)讀:上海人工智能實驗室(上海 AI 實驗室)宣布開源通用多模態(tài)大模型書生?萬象 3.5(InternVL3.5),其推理能力、部署效率與通用能力全面升級。
9 月 3 日消息,上海人工智能實驗室(上海 AI 實驗室)宣布開源通用多模態(tài)大模型書生?萬象 3.5(InternVL3.5),其推理能力、部署效率與通用能力全面升級。
InternVL3.5 本次開源有 9 種尺寸的模型,參數(shù)涵蓋 10 億-2410 億,可滿足各場景需求。其中,旗艦?zāi)P?InternVL3.5-241B-A28B 在多學(xué)科推理基準 MMMU 中獲 77.7 分,為開源模型中最高分;多模態(tài)通用感知能力超越 GPT-5,文本能力領(lǐng)跑主流開源多模態(tài)大模型。
與 InternVL3.0 相比,InternVL3.5 在圖形用戶界面(GUI)智能體、具身空間感知、矢量圖像理解與生成等多種特色任務(wù)上實現(xiàn)顯著提升。
本次升級,上海 AI 實驗室研究團隊重點強化了 InternVL3.5 面向?qū)嶋H應(yīng)用的智能體與文本思考能力,在 GUI 交互、具身空間推理和矢量圖形處理等多個關(guān)鍵場景實現(xiàn)從“理解”到“行動”的跨越,并得到多項評測驗證。
GUI 交互部分,InternVL3.5 在 ScreenSpot-v2 元素定位任務(wù)以 92.9 分超越同類模型,同時支持 Windows / Ubuntu 自動化操作,并在 WindowsAgentArena 任務(wù)大幅領(lǐng)先 Claude-3.7-Sonnet。
在具身智能體測試中,InternVL3.5 表現(xiàn)出理解物理空間關(guān)系并規(guī)劃導(dǎo)航路徑的能力,在 VSI-Bench 以 69.5 分超過 Gemini-2.5-Pro。
在矢量圖形理解與生成方面,InternVL3.5 在 SGP-Bench 以 70.7 分刷新開源紀錄,生成任務(wù) FID 值也優(yōu)于 GPT-4o 和 Claude-3.7-Sonnet。
具體來看,InternVL3.5 可跨 Windows、Mac、Ubuntu、Android等多個平臺,識別界面元素并自主執(zhí)行鼠標、鍵盤操作,實現(xiàn)恢復(fù)已刪除文件、導(dǎo)出 PDF、郵件添加附件等任務(wù)的自動化。
InternVL3.5 具備更強的 grounding 能力,可以泛化到全新的復(fù)雜大量小樣本的具身場景,配合抓取算法,支持可泛化的長程物體抓取操作,助力機器人更高效地完成物品識別、路徑規(guī)劃與物理交互。
作為上海 AI 實驗室書生大模型體系的重要組成部分,InternVL 聚焦視覺模型技術(shù),InternVL 全系列全網(wǎng)下載量已突破 2300 萬次。