技術(shù)
導(dǎo)讀:據(jù)人民郵電報(bào)報(bào)道,中國(guó)移動(dòng)近期實(shí)現(xiàn)了智算萬(wàn)卡池在長(zhǎng)周期訓(xùn)練場(chǎng)景下持續(xù)穩(wěn)定運(yùn)行,訓(xùn)練穩(wěn)定性達(dá)到行業(yè)領(lǐng)先水平,標(biāo)志著我國(guó)在超大規(guī)模智算集群管控領(lǐng)域已具備領(lǐng)先水平。
10 月 14 日消息,據(jù)人民郵電報(bào)報(bào)道,中國(guó)移動(dòng)近期實(shí)現(xiàn)了智算萬(wàn)卡池在長(zhǎng)周期訓(xùn)練場(chǎng)景下持續(xù)穩(wěn)定運(yùn)行,訓(xùn)練穩(wěn)定性達(dá)到行業(yè)領(lǐng)先水平,標(biāo)志著我國(guó)在超大規(guī)模智算集群管控領(lǐng)域已具備領(lǐng)先水平,解決了超大規(guī)模算力集群調(diào)度、高可靠通信保障、故障智能診斷與快速自愈等業(yè)界難題。
據(jù)介紹,人工智能技術(shù)正迎來爆發(fā)式的發(fā)展,大模型參數(shù)規(guī)模正向萬(wàn)億級(jí)升級(jí),因此智算基礎(chǔ)設(shè)施的算力密度、穩(wěn)定性和協(xié)同效率面臨挑戰(zhàn),萬(wàn)卡級(jí)規(guī)模協(xié)同訓(xùn)練場(chǎng)景是全球普遍面臨智算集群穩(wěn)定性問題。
中國(guó)移動(dòng)基于哈爾濱數(shù)據(jù)中心智算集群,主導(dǎo)研發(fā)全調(diào)度以太網(wǎng)(GSE)技術(shù)體系,打造慢卡慢網(wǎng)絡(luò)風(fēng)險(xiǎn)識(shí)別、斷點(diǎn)續(xù)訓(xùn)、AI 運(yùn)維智能體等新技術(shù),攻克了超大規(guī)模智算基礎(chǔ)設(shè)施運(yùn)行的關(guān)鍵技術(shù)難題。在關(guān)鍵技術(shù)突破層面,團(tuán)隊(duì)重點(diǎn)攻關(guān)三大核心難題:
創(chuàng)新慢卡慢網(wǎng)絡(luò)風(fēng)險(xiǎn)識(shí)別技術(shù),實(shí)現(xiàn)典型場(chǎng)景故障全部感知、提升診斷準(zhǔn)確率
研發(fā)斷點(diǎn)續(xù)訓(xùn)機(jī)制,實(shí)現(xiàn)故障節(jié)點(diǎn)自動(dòng)隔離后訓(xùn)練狀態(tài)的分鐘級(jí)回滾,硬件故障導(dǎo)致的斷訓(xùn)量下降 50%
引入 AI 運(yùn)維智能體,通過多層架構(gòu)日志分析系統(tǒng)實(shí)現(xiàn)分鐘級(jí)故障定界,覆蓋 25 類軟硬件故障解決方案,將故障處理時(shí)長(zhǎng)從數(shù)天級(jí)降至分鐘級(jí)
從人民郵電報(bào)報(bào)道獲悉,長(zhǎng)穩(wěn)運(yùn)行能力直接將大模型訓(xùn)練周期縮短近三分之一,資源利用率近 100%,為 AI 技術(shù)工業(yè)化量產(chǎn)奠定基礎(chǔ),可支撐自動(dòng)駕駛、生物醫(yī)藥、新材料研發(fā)等前沿領(lǐng)域技術(shù)進(jìn)步。此外,中國(guó)移動(dòng)還在黑龍江、廣東打造了智算運(yùn)維樣板間。
值得一提的是,在今年 10 月 11 日的 2025 中國(guó)移動(dòng)全球合作伙伴大會(huì)主論壇上,中國(guó)移動(dòng)宣布升級(jí)“AI+”行動(dòng)計(jì)劃,明確到 2028 年底,中國(guó)移動(dòng)將持續(xù)加大對(duì)人工智能領(lǐng)域的投入力度,總體投入翻一番,建成國(guó)內(nèi)規(guī)模最大、技術(shù)領(lǐng)先的智算基礎(chǔ)設(shè)施,探索十萬(wàn)卡智算集群建設(shè),全國(guó)產(chǎn)智能算力規(guī)模突破 100 EFLOPS。