AV女同免费一区二区三区在线,跪求在线播放AV,99这里免费精品

百度智能云開源視覺理解模型 Qianfan-VL，基于自研昆侖芯 P800 芯片計算

2025-09-23 09:10 IT之家

導(dǎo)讀：百度智能云千帆正式推出全新視覺理解模型 ——Qianfan-VL，并全面開源。

　　9月 22 日消息，百度智能云千帆正式推出全新視覺理解模型 ——Qianfan-VL，并全面開源。該系列包含 3B、8B 和 70B 三個尺寸版本，是面向企業(yè)級多模態(tài)應(yīng)用場景，進(jìn)行了深度優(yōu)化的視覺理解大模型。官方稱，Qianfan-VL 不僅具備出色的基礎(chǔ)通用能力，還針對產(chǎn)業(yè)落地中的高頻需求，如 OCR 和教育垂直場景做了專項(xiàng)強(qiáng)化，使其在實(shí)際應(yīng)用中表現(xiàn)更加卓越。

　　Qianfan-VL 現(xiàn)已開源，即日起至 10 月 10 日，企業(yè)用戶和開發(fā)者可在百度智能云千帆平臺免費(fèi)體驗(yàn) 8B、70B 模型。

　　附模型官方介紹如下：

　　Qianfan-VL 系列模型是由百度智能云千帆模型研發(fā)團(tuán)隊(duì)，基于開源模型進(jìn)行開發(fā)，并在百度自研昆侖芯 P800 上完成全流程計算任務(wù)。昆侖芯 P800 提供了強(qiáng)大的算力支撐，確保模型能夠高效處理海量數(shù)據(jù)與復(fù)雜算法，同時支持單任務(wù) 5000 卡規(guī)模的并行計算。這一結(jié)合不僅優(yōu)化了模型計算的效率，更使得模型在性能表現(xiàn)上達(dá)到了新的高度，在通用和垂類任務(wù)評測中展現(xiàn)出 SOTA 水平。Qianfan-VL 模型具備三大特點(diǎn)：

　　● 多尺寸模型滿足不同場景需求：提供 3B、8B、70B 三種規(guī)格的模型，讓不同規(guī)模的企業(yè)和開發(fā)者都能找到合適的解決方案。

　　● 提供思考推理能力：8B 和 70B 模型支持通過特殊 token 激活思維鏈能力，覆蓋復(fù)雜圖表理解、視覺推理、數(shù)學(xué)解題等多種場景。

　　● OCR 與文檔理解能力增強(qiáng)：主打 OCR 全場景識別和復(fù)雜版面文檔理解兩大特色能力，在多項(xiàng)基準(zhǔn)測試中表現(xiàn)優(yōu)異，為企業(yè)級應(yīng)用提供高精度的視覺理解解決方案。

　　模型性能與效果

　　>> 通用能力基準(zhǔn)測試表現(xiàn)

　　在通用能力基準(zhǔn)測試中，Qianfan-VL 系列模型（3B、8B、70B）展現(xiàn)出顯著核心優(yōu)勢。從視覺理解到專業(yè)領(lǐng)域問答，模型性能隨參數(shù)規(guī)模增大提升顯著，體現(xiàn)出很好的 Scaling 趨勢。在 ScienceQA 等專業(yè)問答測試中，精準(zhǔn)度表現(xiàn)突出；多模態(tài)任務(wù)如 RefCOCO 等，物體識別與關(guān)聯(lián)能力優(yōu)異；同時，在各類通用基準(zhǔn)測試?yán)?，相較主流模型，整體表現(xiàn)也頗為亮眼，充分彰顯出在視覺理解通用能力上的出色實(shí)力，為不同場景下的智能應(yīng)用提供了有力支撐。

　　>>OCR 與文檔理解基準(zhǔn)測試表現(xiàn)

　　Qianfan-VL 系列模型（3B、8B、70B）在 OCR 與文檔理解領(lǐng)域盡顯卓越實(shí)力。一方面，具備 OCR 全場景識別能力，能精準(zhǔn)識別手寫體、數(shù)學(xué)公式、自然場景文字，還可對卡證票據(jù)信息進(jìn)行結(jié)構(gòu)化提??；另一方面，復(fù)雜版面文檔理解能力突出，可自動分析版面元素，精準(zhǔn)解析表格、圖表，實(shí)現(xiàn)文檔智能問答與結(jié)構(gòu)化解析。從基準(zhǔn)測試表現(xiàn)看，在 OCRBench、各類專業(yè)測試中，相較于主流模型，成績優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好，為企業(yè)級應(yīng)用提供了高精度的視覺理解解決方案，有力推動文檔智能處理場景的高效落地。

　　>> 數(shù)學(xué)解題基準(zhǔn)測試表現(xiàn)

　　Qianfan-VL 系列的 8B 和 70B 模型，在思考推理能力方面表現(xiàn)卓越。它們支持通過特殊 token 激活思維鏈能力，能覆蓋復(fù)雜圖表理解、視覺推理、數(shù)學(xué)解題等多類場景。這類任務(wù)需結(jié)合視覺信息與外部知識進(jìn)行組合推理，而模型通過融合大量視覺類、文本類推理數(shù)據(jù)并用于后訓(xùn)練，從 benchmark 表現(xiàn)來看，推理計算相關(guān)任務(wù)效果顯著提升。

　　在核心推理應(yīng)用場景上，復(fù)雜圖表理解與推理方面，可從復(fù)雜圖表提取關(guān)鍵信息，進(jìn)行數(shù)據(jù)分析、趨勢預(yù)測、關(guān)聯(lián)推理及統(tǒng)計計算；數(shù)學(xué)解題與視覺推理領(lǐng)域，能實(shí)現(xiàn)幾何推理、公式識別、分步求解與邏輯推斷。從數(shù)學(xué)解題基準(zhǔn)測試表現(xiàn)看，在 MathVista-mini、MathVision 等多項(xiàng)測試中，相較于主流模型，成績優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好，為復(fù)雜推理場景下的應(yīng)用提供了強(qiáng)力支持。

　　模型架構(gòu)設(shè)計與技術(shù)特色

　　Qianfan-VL 通過先進(jìn)的多模態(tài)架構(gòu)設(shè)計，憑借持續(xù)預(yù)訓(xùn)練和三大技術(shù)創(chuàng)新，實(shí)現(xiàn)了領(lǐng)域增強(qiáng)的通用視覺-語言能力。

　　● 能力增強(qiáng)訓(xùn)練方案：創(chuàng)新的四階段訓(xùn)練策略，在保持通用能力基礎(chǔ)上實(shí)現(xiàn)領(lǐng)域能力顯著提升。

　　● 高精度數(shù)據(jù)合成管線：構(gòu)建面向多模態(tài)任務(wù)的大規(guī)模數(shù)據(jù)合成管線，涵蓋文檔識別、數(shù)學(xué)解題、圖表理解、表格識別、公式識別、自然場景 OCR 等核心任務(wù)，通過精細(xì)化的管線設(shè)計和中間過程數(shù)據(jù)構(gòu)造，實(shí)現(xiàn)高質(zhì)量訓(xùn)練數(shù)據(jù)的規(guī)?；a(chǎn)。

　　● 昆侖芯驅(qū)動大模型高效計算：基于百度自研昆侖芯 P800 芯片，構(gòu)建了業(yè)界領(lǐng)先的超大規(guī)模（5000 卡）分布式計算系統(tǒng)，通過創(chuàng)新的并行策略和算子優(yōu)化，顯著提升大模型任務(wù)的處理性能與運(yùn)行效率。

　　模型應(yīng)用案例

　　>>OCR 識別場景

　　>> 文檔理解場景

　　除上述場景應(yīng)用案例外，Qianfan-VL 同樣可應(yīng)用在圖表分析、視頻理解等場景中，均呈現(xiàn)出卓越的模型效果。

　　Qianfan-VL 系列模型的開源，對百度智能云千帆來說，更像是“把模型放進(jìn)真實(shí)生產(chǎn)力場景”的一小步；未來，百度智能云將秉持對技術(shù)的執(zhí)著追求與對應(yīng)用場景的深度洞察，不斷推出全新的產(chǎn)業(yè)級模型，全方位助力 AI 技術(shù)在各行業(yè)落地。

百度智能云開源視覺理解模型 Qianfan-VL，基于自研昆侖芯 P800 芯片計算

相關(guān)閱讀