技術(shù)
導(dǎo)讀:宇樹宣布開源 UnifoLM-VLA-0 大模型。
1 月 29 日消息,宇樹宣布開源 UnifoLM-VLA-0 大模型。
據(jù)介紹,該模型是 UnifoLM 系列下面向通用人形機(jī)器人操作的視覺-語言-動(dòng)作(VLA)大模型,旨在突破傳統(tǒng) VLM 在物理交互中的局限,通過在機(jī)器人操作數(shù)據(jù)上的繼續(xù)預(yù)訓(xùn)練,實(shí)現(xiàn)了從通用“圖文理解”向具備物理常識(shí)的“具身大腦”的進(jìn)化。
針對(duì)操作類任務(wù)中對(duì)指令理解與空間感知的高要求,模型通過繼續(xù)預(yù)訓(xùn)練深度融合了文本指令與 2D/3D 空間細(xì)節(jié),增強(qiáng)了模型的空間感知能力。
構(gòu)建了全鏈路動(dòng)力學(xué)預(yù)測(cè)數(shù)據(jù),模型具備更好的任務(wù)泛化性。在真機(jī)驗(yàn)證中,僅需單一策略即可高質(zhì)量完成 12 類復(fù)雜的操作任務(wù)。
基于 Qwen2.5-VL-7B 開源模型,宇樹構(gòu)建了覆蓋機(jī)器人與通用場(chǎng)景的多任務(wù)數(shù)據(jù)集,并開展持續(xù)預(yù)訓(xùn)練。該數(shù)據(jù)集涵蓋 2D 檢測(cè)與分割、任務(wù)層級(jí)分解、3D 目標(biāo)檢測(cè)、空間位置推理及軌跡預(yù)測(cè)等多維數(shù)據(jù),有效提升了模型對(duì)幾何空間與語義邏輯的對(duì)齊能力。
針對(duì)操作類任務(wù),宇樹對(duì)開源數(shù)據(jù)集進(jìn)行了系統(tǒng)化清洗,最終僅利用約 340 小時(shí)的真機(jī)數(shù)據(jù),進(jìn)行離散動(dòng)作的預(yù)測(cè)訓(xùn)練。在此基礎(chǔ)上,模型集成了動(dòng)作分塊預(yù)測(cè),以及前向與逆向動(dòng)力學(xué)約束,實(shí)現(xiàn)對(duì)動(dòng)作序列的統(tǒng)一建模,從而使 VLM 具備對(duì)機(jī)器人與物體物理交互規(guī)律的深度理解能力,并支持長時(shí)序動(dòng)作規(guī)劃與決策。
基于上述構(gòu)建的數(shù)據(jù)集開展持續(xù)預(yù)訓(xùn)練后,宇樹獲得了 UnifoLM-VLM-0。該模型在多類任務(wù)場(chǎng)景下展現(xiàn)出顯著增強(qiáng)的空間推理能力與可靠的多模態(tài)感知性能。
宇樹在三個(gè)空間理解基準(zhǔn)上對(duì)模型進(jìn)行了評(píng)估,結(jié)果顯示:模型在空間感知與理解能力上較 Qwen2.5-VL-7B 有顯著提升,并且在 "no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。
宇樹在 UnifoLM-VLM-0 模型的基礎(chǔ)上集成了動(dòng)作預(yù)測(cè)頭 (ActionHead),從而構(gòu)建出 Uni-foLM-VLA-0。經(jīng)由仿真環(huán)境與真機(jī)實(shí)驗(yàn)的多任務(wù)訓(xùn)練驗(yàn)證,結(jié)果顯示該模型具備單模型處理多任務(wù)的通用能力,在 LIBERO 仿真基準(zhǔn)測(cè)試中,宇樹的多任務(wù)模型取得了接近最優(yōu)的性能。
在宇樹 G1 人形機(jī)器人平臺(tái)上,宇樹構(gòu)建了覆蓋 12 類復(fù)雜操作任務(wù)的高質(zhì)量真機(jī)數(shù)據(jù)集,并基于此對(duì) UnifoLM-VLA-0 進(jìn)行單一策略網(wǎng)絡(luò)的統(tǒng)一端到端訓(xùn)練。真機(jī)實(shí)驗(yàn)結(jié)果表明,該模型能夠在同一策略 checkpoint 下,穩(wěn)定完成全部 12 項(xiàng)任務(wù),在外部擾動(dòng)條件下仍保持良好的執(zhí)行魯棒性與抗干擾能力。