導讀:智元機器人宣布,繼今年 1 月 AgiBot World 具身智能百萬真機數(shù)據(jù)集開源后,通用具身基座大模型 GO-1(Genie Operator-1)也正式在 GitHub 開源。
9 月 23 日消息,智元機器人宣布,繼今年 1 月 AgiBot World 具身智能百萬真機數(shù)據(jù)集開源后,通用具身基座大模型 GO-1(Genie Operator-1)也正式在 GitHub 開源。
智元機器人稱,這標志著全球首個采用 Vision-Language-Latent-Action (ViLLA) 架構的通用具身智能模型向全球開發(fā)者免費開放,將極大降低具身智能的技術門檻,推動行業(yè)快速發(fā)展。
附官方對 GO-1 的介紹如下:
01、技術突破:ViLLA 架構引領具身智能新范式
GO-1 采用的 Vision-Language-Latent-Action (ViLLA) 架構是具身智能領域的重大技術突破。與傳統(tǒng)的 Vision-Language-Action (VLA) 架構相比,ViLLA 通過引入隱式動作標記,成功彌合了圖像-文本輸入與機器人執(zhí)行動作之間的語義鴻溝。這一創(chuàng)新使得機器人能夠更好地理解人類意圖,并將其轉化為精確的動作執(zhí)行。
ViLLA 架構的核心在于其三層協(xié)同設計。VLM 多模態(tài)理解層基于 InternVL-2B 構建,能夠處理多視角視覺圖片、力覺信號、語言輸入等多模態(tài)信息,為整個系統(tǒng)提供強大的場景感知和指令理解能力。Latent Planner 隱式規(guī)劃器通過預測隱式動作標記,實現(xiàn)了對復雜操作任務的高層次規(guī)劃和理解。Action Expert 動作專家則基于擴散模型,能夠生成高頻率、高精度的連續(xù)動作序列,確保機器人能夠執(zhí)行精細的操控任務。
02、平臺支持:Genie Studio 一站式開發(fā)平臺
Genie Studio 是智元機器人專為具身智能場景打造的一站式開發(fā)平臺,為開發(fā)者和合作伙伴提供全棧式解決方案,覆蓋數(shù)據(jù)采集、數(shù)據(jù)管理、模型訓練與微調、仿真評測、模型構建與部署等全流程。平臺提供開箱即用的 GO-1 基座模型,集成 Video Traning 方案和統(tǒng)一訓練框架,內置完整的開發(fā)工具鏈,可實現(xiàn)真機一鍵編譯 & 部署,顯著提升開發(fā)效率,助力具身智能技術的快速落地與應用。
官網(wǎng)入口
https://genie.agibot.com/geniestudio
購買咨詢
https://www.zhiyuan-robot.com/Contact/Business
03、社區(qū)共建:打造開源社區(qū)生態(tài)
雖然 GO-1 僅基于 AgiBot G1 機器人數(shù)據(jù)進行預訓練,但該模型已經(jīng)在松靈機器人、方舟機器人、Franka 機械臂等不同本體上進行了充分的驗證測試。這些跨本體驗證結果表明,GO-1 具備良好的可移植性,能夠適應不同機器人的運動學特性和控制接口。
在仿真環(huán)境測試方面,GO-1 在 Genie Sim 和 Libero 等主流仿真平臺上均取得了領先的性能表現(xiàn)。
針對真機部署場景,GO-1 模型充分考慮了用戶多樣化的機器人平臺需求,不僅提供了 Genie Studio 一站式開發(fā)平臺來支持 Genie G1 本體的數(shù)據(jù)采集、模型微調和部署,同時特別集成了通用 LeRobot 數(shù)據(jù)格式,支持其他機器人本體的數(shù)據(jù)采集、模型微調和部署。
通過 Genie Studio,在 Genie G1 真機實驗中,GO-1 相比于其他 SOTA 模型也取得了領先的性能。