應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

百度智能云開(kāi)源視覺(jué)理解模型 Qianfan-VL,基于自研昆侖芯 P800 芯片計(jì)算

2025-09-23 09:10 IT之家
關(guān)鍵詞:百度智能云

導(dǎo)讀:百度智能云千帆正式推出全新視覺(jué)理解模型 ——Qianfan-VL,并全面開(kāi)源。

  9月 22 日消息,百度智能云千帆正式推出全新視覺(jué)理解模型 ——Qianfan-VL,并全面開(kāi)源。該系列包含 3B、8B 和 70B 三個(gè)尺寸版本,是面向企業(yè)級(jí)多模態(tài)應(yīng)用場(chǎng)景,進(jìn)行了深度優(yōu)化的視覺(jué)理解大模型。官方稱(chēng),Qianfan-VL 不僅具備出色的基礎(chǔ)通用能力,還針對(duì)產(chǎn)業(yè)落地中的高頻需求,如 OCR 和教育垂直場(chǎng)景做了專(zhuān)項(xiàng)強(qiáng)化,使其在實(shí)際應(yīng)用中表現(xiàn)更加卓越。

  Qianfan-VL 現(xiàn)已開(kāi)源,即日起至 10 月 10 日,企業(yè)用戶(hù)和開(kāi)發(fā)者可在百度智能云千帆平臺(tái)免費(fèi)體驗(yàn) 8B、70B 模型。

  附模型官方介紹如下:

  Qianfan-VL 系列模型是由百度智能云千帆模型研發(fā)團(tuán)隊(duì),基于開(kāi)源模型進(jìn)行開(kāi)發(fā),并在百度自研昆侖芯 P800 上完成全流程計(jì)算任務(wù)。昆侖芯 P800 提供了強(qiáng)大的算力支撐,確保模型能夠高效處理海量數(shù)據(jù)與復(fù)雜算法,同時(shí)支持單任務(wù) 5000 卡規(guī)模的并行計(jì)算。這一結(jié)合不僅優(yōu)化了模型計(jì)算的效率,更使得模型在性能表現(xiàn)上達(dá)到了新的高度,在通用和垂類(lèi)任務(wù)評(píng)測(cè)中展現(xiàn)出 SOTA 水平。Qianfan-VL 模型具備三大特點(diǎn):

  ● 多尺寸模型滿(mǎn)足不同場(chǎng)景需求:提供 3B、8B、70B 三種規(guī)格的模型,讓不同規(guī)模的企業(yè)和開(kāi)發(fā)者都能找到合適的解決方案。

  ● 提供思考推理能力:8B 和 70B 模型支持通過(guò)特殊 token 激活思維鏈能力,覆蓋復(fù)雜圖表理解、視覺(jué)推理、數(shù)學(xué)解題等多種場(chǎng)景。

  ● OCR 與文檔理解能力增強(qiáng):主打 OCR 全場(chǎng)景識(shí)別和復(fù)雜版面文檔理解兩大特色能力,在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為企業(yè)級(jí)應(yīng)用提供高精度的視覺(jué)理解解決方案。

  模型性能與效果

  >> 通用能力基準(zhǔn)測(cè)試表現(xiàn)

  在通用能力基準(zhǔn)測(cè)試中,Qianfan-VL 系列模型(3B、8B、70B)展現(xiàn)出顯著核心優(yōu)勢(shì)。從視覺(jué)理解到專(zhuān)業(yè)領(lǐng)域問(wèn)答,模型性能隨參數(shù)規(guī)模增大提升顯著,體現(xiàn)出很好的 Scaling 趨勢(shì)。在 ScienceQA 等專(zhuān)業(yè)問(wèn)答測(cè)試中,精準(zhǔn)度表現(xiàn)突出;多模態(tài)任務(wù)如 RefCOCO 等,物體識(shí)別與關(guān)聯(lián)能力優(yōu)異;同時(shí),在各類(lèi)通用基準(zhǔn)測(cè)試?yán)?,相較主流模型,整體表現(xiàn)也頗為亮眼,充分彰顯出在視覺(jué)理解通用能力上的出色實(shí)力,為不同場(chǎng)景下的智能應(yīng)用提供了有力支撐。

  >>OCR 與文檔理解基準(zhǔn)測(cè)試表現(xiàn)

  Qianfan-VL 系列模型(3B、8B、70B)在 OCR 與文檔理解領(lǐng)域盡顯卓越實(shí)力。一方面,具備 OCR 全場(chǎng)景識(shí)別能力,能精準(zhǔn)識(shí)別手寫(xiě)體、數(shù)學(xué)公式、自然場(chǎng)景文字,還可對(duì)卡證票據(jù)信息進(jìn)行結(jié)構(gòu)化提??;另一方面,復(fù)雜版面文檔理解能力突出,可自動(dòng)分析版面元素,精準(zhǔn)解析表格、圖表,實(shí)現(xiàn)文檔智能問(wèn)答與結(jié)構(gòu)化解析。從基準(zhǔn)測(cè)試表現(xiàn)看,在 OCRBench、各類(lèi)專(zhuān)業(yè)測(cè)試中,相較于主流模型,成績(jī)優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好,為企業(yè)級(jí)應(yīng)用提供了高精度的視覺(jué)理解解決方案,有力推動(dòng)文檔智能處理場(chǎng)景的高效落地。

  >> 數(shù)學(xué)解題基準(zhǔn)測(cè)試表現(xiàn)

  Qianfan-VL 系列的 8B 和 70B 模型,在思考推理能力方面表現(xiàn)卓越。它們支持通過(guò)特殊 token 激活思維鏈能力,能覆蓋復(fù)雜圖表理解、視覺(jué)推理、數(shù)學(xué)解題等多類(lèi)場(chǎng)景。這類(lèi)任務(wù)需結(jié)合視覺(jué)信息與外部知識(shí)進(jìn)行組合推理,而模型通過(guò)融合大量視覺(jué)類(lèi)、文本類(lèi)推理數(shù)據(jù)并用于后訓(xùn)練,從 benchmark 表現(xiàn)來(lái)看,推理計(jì)算相關(guān)任務(wù)效果顯著提升。

  在核心推理應(yīng)用場(chǎng)景上,復(fù)雜圖表理解與推理方面,可從復(fù)雜圖表提取關(guān)鍵信息,進(jìn)行數(shù)據(jù)分析、趨勢(shì)預(yù)測(cè)、關(guān)聯(lián)推理及統(tǒng)計(jì)計(jì)算;數(shù)學(xué)解題與視覺(jué)推理領(lǐng)域,能實(shí)現(xiàn)幾何推理、公式識(shí)別、分步求解與邏輯推斷。從數(shù)學(xué)解題基準(zhǔn)測(cè)試表現(xiàn)看,在 MathVista-mini、MathVision 等多項(xiàng)測(cè)試中,相較于主流模型,成績(jī)優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好,為復(fù)雜推理場(chǎng)景下的應(yīng)用提供了強(qiáng)力支持。

  模型架構(gòu)設(shè)計(jì)與技術(shù)特色

  Qianfan-VL 通過(guò)先進(jìn)的多模態(tài)架構(gòu)設(shè)計(jì),憑借持續(xù)預(yù)訓(xùn)練和三大技術(shù)創(chuàng)新,實(shí)現(xiàn)了領(lǐng)域增強(qiáng)的通用視覺(jué)-語(yǔ)言能力。

  ● 能力增強(qiáng)訓(xùn)練方案:創(chuàng)新的四階段訓(xùn)練策略,在保持通用能力基礎(chǔ)上實(shí)現(xiàn)領(lǐng)域能力顯著提升。

  ● 高精度數(shù)據(jù)合成管線(xiàn):構(gòu)建面向多模態(tài)任務(wù)的大規(guī)模數(shù)據(jù)合成管線(xiàn),涵蓋文檔識(shí)別、數(shù)學(xué)解題、圖表理解、表格識(shí)別、公式識(shí)別、自然場(chǎng)景 OCR 等核心任務(wù),通過(guò)精細(xì)化的管線(xiàn)設(shè)計(jì)和中間過(guò)程數(shù)據(jù)構(gòu)造,實(shí)現(xiàn)高質(zhì)量訓(xùn)練數(shù)據(jù)的規(guī)?;a(chǎn)。

  ● 昆侖芯驅(qū)動(dòng)大模型高效計(jì)算基于百度自研昆侖芯 P800 芯片,構(gòu)建了業(yè)界領(lǐng)先的超大規(guī)模(5000 卡)分布式計(jì)算系統(tǒng),通過(guò)創(chuàng)新的并行策略和算子優(yōu)化,顯著提升大模型任務(wù)的處理性能與運(yùn)行效率。

  模型應(yīng)用案例

  >>OCR 識(shí)別場(chǎng)景

941a4940-9728-404d-92f6-c4b5d5ad44a8.png

  >> 文檔理解場(chǎng)景

  除上述場(chǎng)景應(yīng)用案例外,Qianfan-VL 同樣可應(yīng)用在圖表分析、視頻理解等場(chǎng)景中,均呈現(xiàn)出卓越的模型效果。

  Qianfan-VL 系列模型的開(kāi)源,對(duì)百度智能云千帆來(lái)說(shuō),更像是“把模型放進(jìn)真實(shí)生產(chǎn)力場(chǎng)景”的一小步;未來(lái),百度智能云將秉持對(duì)技術(shù)的執(zhí)著追求與對(duì)應(yīng)用場(chǎng)景的深度洞察,不斷推出全新的產(chǎn)業(yè)級(jí)模型,全方位助力 AI 技術(shù)在各行業(yè)落地。