應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個(gè)人注冊登錄

業(yè)界首個(gè):英偉達(dá)發(fā)布專注于自動(dòng)駕駛的視覺語言動(dòng)作模型 Alpamayo-R1

2025-12-02 09:08 IT之家

導(dǎo)讀:英偉達(dá)宣布推出新的基礎(chǔ)設(shè)施與人工智能模型,旨在構(gòu)建“具身智能”(Physical AI)的核心技術(shù)基礎(chǔ),包括能夠感知并與現(xiàn)實(shí)世界互動(dòng)的機(jī)器人和自動(dòng)駕駛車輛。

  12 月 2 日消息,英偉達(dá)宣布推出新的基礎(chǔ)設(shè)施與人工智能模型,旨在構(gòu)建“具身智能”(Physical AI)的核心技術(shù)基礎(chǔ),包括能夠感知并與現(xiàn)實(shí)世界互動(dòng)的機(jī)器人和自動(dòng)駕駛車輛。

  這家半導(dǎo)體巨頭在加利福尼亞州圣地亞哥舉行的 NeurIPS 人工智能大會(huì)上發(fā)布了 Alpamayo-R1—— 一款面向自動(dòng)駕駛研究的開源推理型視覺語言模型。該公司稱,這是業(yè)界首個(gè)專注于自動(dòng)駕駛領(lǐng)域的視覺語言動(dòng)作模型。視覺語言模型能夠同時(shí)處理文本與圖像信息,使車輛能夠“看見”周圍環(huán)境,并基于所感知的內(nèi)容做出決策。

  該新模型基于英偉達(dá)此前推出的 Cosmos-Reason 推理模型構(gòu)建,后者具備在響應(yīng)前對決策進(jìn)行邏輯推演的能力。英偉達(dá)最初于 2025 年 1 月發(fā)布了 Cosmos 模型系列,并于同年 8 月推出了更多擴(kuò)展版本。

  英偉達(dá)在一篇博客文章中指出,Alpamayo-R1 這類技術(shù)對于致力于實(shí)現(xiàn) L4 級自動(dòng)駕駛的企業(yè)至關(guān)重要。L4 級自動(dòng)駕駛指在特定區(qū)域和限定條件下實(shí)現(xiàn)完全自動(dòng)駕駛。

  英偉達(dá)希望,此類具備推理能力的模型能賦予自動(dòng)駕駛車輛類似人類的“常識”,從而更妥善地應(yīng)對復(fù)雜的駕駛場景中的細(xì)微決策。

  目前,該新模型已在 GitHub 和 Hugging Face 平臺開源發(fā)布。

  除發(fā)布新視覺模型外,英偉達(dá)還同步在 GitHub 上推出了名為“Cosmos Cookbook”的全套開發(fā)資源包,包含分步指南、推理工具及訓(xùn)練后工作流,以幫助開發(fā)者針對自身應(yīng)用場景更高效地使用和訓(xùn)練 Cosmos 系列模型。該資源包涵蓋數(shù)據(jù)整理、合成數(shù)據(jù)生成以及模型評估等關(guān)鍵環(huán)節(jié)。

  上述發(fā)布正值英偉達(dá)全力進(jìn)軍具身智能領(lǐng)域,將其視為其先進(jìn) AI GPU 技術(shù)的新增長方向。

  英偉達(dá)聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛多次表示,人工智能的下一波浪潮將是具身智能。今年夏天,英偉達(dá)首席科學(xué)家比爾?達(dá)利(Bill Dally)在接受 TechCrunch 采訪時(shí)也表達(dá)了相同觀點(diǎn),并特別強(qiáng)調(diào)了具身智能在機(jī)器人領(lǐng)域的應(yīng)用前景。

  “我認(rèn)為,機(jī)器人最終將成為全球的重要角色,而我們的目標(biāo)就是打造所有機(jī)器人的‘大腦’,”達(dá)利當(dāng)時(shí)表示,“要實(shí)現(xiàn)這一目標(biāo),我們必須從現(xiàn)在開始研發(fā)關(guān)鍵技術(shù)?!?/p>