123,123,123

宇樹開源 UnifoLM-VLA-0 大模型，助力通用人形機(jī)器人操作

2026-01-30 09:32 IT之家

導(dǎo)讀：宇樹宣布開源 UnifoLM-VLA-0 大模型。

　　1 月 29 日消息，宇樹宣布開源 UnifoLM-VLA-0 大模型。

　　據(jù)介紹，該模型是 UnifoLM 系列下面向通用人形機(jī)器人操作的視覺-語言-動(dòng)作（VLA）大模型，旨在突破傳統(tǒng) VLM 在物理交互中的局限，通過在機(jī)器人操作數(shù)據(jù)上的繼續(xù)預(yù)訓(xùn)練，實(shí)現(xiàn)了從通用“圖文理解”向具備物理常識(shí)的“具身大腦”的進(jìn)化。

　　針對(duì)操作類任務(wù)中對(duì)指令理解與空間感知的高要求，模型通過繼續(xù)預(yù)訓(xùn)練深度融合了文本指令與 2D/3D 空間細(xì)節(jié)，增強(qiáng)了模型的空間感知能力。

　　構(gòu)建了全鏈路動(dòng)力學(xué)預(yù)測(cè)數(shù)據(jù)，模型具備更好的任務(wù)泛化性。在真機(jī)驗(yàn)證中，僅需單一策略即可高質(zhì)量完成 12 類復(fù)雜的操作任務(wù)。

　　基于 Qwen2.5-VL-7B 開源模型，宇樹構(gòu)建了覆蓋機(jī)器人與通用場(chǎng)景的多任務(wù)數(shù)據(jù)集，并開展持續(xù)預(yù)訓(xùn)練。該數(shù)據(jù)集涵蓋 2D 檢測(cè)與分割、任務(wù)層級(jí)分解、3D 目標(biāo)檢測(cè)、空間位置推理及軌跡預(yù)測(cè)等多維數(shù)據(jù)，有效提升了模型對(duì)幾何空間與語義邏輯的對(duì)齊能力。

　　針對(duì)操作類任務(wù)，宇樹對(duì)開源數(shù)據(jù)集進(jìn)行了系統(tǒng)化清洗，最終僅利用約 340 小時(shí)的真機(jī)數(shù)據(jù)，進(jìn)行離散動(dòng)作的預(yù)測(cè)訓(xùn)練。在此基礎(chǔ)上，模型集成了動(dòng)作分塊預(yù)測(cè)，以及前向與逆向動(dòng)力學(xué)約束，實(shí)現(xiàn)對(duì)動(dòng)作序列的統(tǒng)一建模，從而使 VLM 具備對(duì)機(jī)器人與物體物理交互規(guī)律的深度理解能力，并支持長時(shí)序動(dòng)作規(guī)劃與決策。

　　基于上述構(gòu)建的數(shù)據(jù)集開展持續(xù)預(yù)訓(xùn)練后，宇樹獲得了 UnifoLM-VLM-0。該模型在多類任務(wù)場(chǎng)景下展現(xiàn)出顯著增強(qiáng)的空間推理能力與可靠的多模態(tài)感知性能。

　　宇樹在三個(gè)空間理解基準(zhǔn)上對(duì)模型進(jìn)行了評(píng)估，結(jié)果顯示：模型在空間感知與理解能力上較 Qwen2.5-VL-7B 有顯著提升，并且在 "no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。

　　宇樹在 UnifoLM-VLM-0 模型的基礎(chǔ)上集成了動(dòng)作預(yù)測(cè)頭 (ActionHead)，從而構(gòu)建出 Uni-foLM-VLA-0。經(jīng)由仿真環(huán)境與真機(jī)實(shí)驗(yàn)的多任務(wù)訓(xùn)練驗(yàn)證，結(jié)果顯示該模型具備單模型處理多任務(wù)的通用能力，在 LIBERO 仿真基準(zhǔn)測(cè)試中，宇樹的多任務(wù)模型取得了接近最優(yōu)的性能。

　　在宇樹 G1 人形機(jī)器人平臺(tái)上，宇樹構(gòu)建了覆蓋 12 類復(fù)雜操作任務(wù)的高質(zhì)量真機(jī)數(shù)據(jù)集，并基于此對(duì) UnifoLM-VLA-0 進(jìn)行單一策略網(wǎng)絡(luò)的統(tǒng)一端到端訓(xùn)練。真機(jī)實(shí)驗(yàn)結(jié)果表明，該模型能夠在同一策略 checkpoint 下，穩(wěn)定完成全部 12 項(xiàng)任務(wù)，在外部擾動(dòng)條件下仍保持良好的執(zhí)行魯棒性與抗干擾能力。

宇樹開源 UnifoLM-VLA-0 大模型，助力通用人形機(jī)器人操作

相關(guān)閱讀

宇樹開源 UnifoLM-VLA-0 大模型，助力通用人形機(jī)器人操作