導(dǎo)讀:據(jù)人民郵電報報道,中國移動近期實現(xiàn)了智算萬卡池在長周期訓(xùn)練場景下持續(xù)穩(wěn)定運行,訓(xùn)練穩(wěn)定性達到行業(yè)領(lǐng)先水平,標志著我國在超大規(guī)模智算集群管控領(lǐng)域已具備領(lǐng)先水平。
10 月 14 日消息,據(jù)人民郵電報報道,中國移動近期實現(xiàn)了智算萬卡池在長周期訓(xùn)練場景下持續(xù)穩(wěn)定運行,訓(xùn)練穩(wěn)定性達到行業(yè)領(lǐng)先水平,標志著我國在超大規(guī)模智算集群管控領(lǐng)域已具備領(lǐng)先水平,解決了超大規(guī)模算力集群調(diào)度、高可靠通信保障、故障智能診斷與快速自愈等業(yè)界難題。
據(jù)介紹,人工智能技術(shù)正迎來爆發(fā)式的發(fā)展,大模型參數(shù)規(guī)模正向萬億級升級,因此智算基礎(chǔ)設(shè)施的算力密度、穩(wěn)定性和協(xié)同效率面臨挑戰(zhàn),萬卡級規(guī)模協(xié)同訓(xùn)練場景是全球普遍面臨智算集群穩(wěn)定性問題。
中國移動基于哈爾濱數(shù)據(jù)中心智算集群,主導(dǎo)研發(fā)全調(diào)度以太網(wǎng)(GSE)技術(shù)體系,打造慢卡慢網(wǎng)絡(luò)風險識別、斷點續(xù)訓(xùn)、AI 運維智能體等新技術(shù),攻克了超大規(guī)模智算基礎(chǔ)設(shè)施運行的關(guān)鍵技術(shù)難題。在關(guān)鍵技術(shù)突破層面,團隊重點攻關(guān)三大核心難題:
創(chuàng)新慢卡慢網(wǎng)絡(luò)風險識別技術(shù),實現(xiàn)典型場景故障全部感知、提升診斷準確率
研發(fā)斷點續(xù)訓(xùn)機制,實現(xiàn)故障節(jié)點自動隔離后訓(xùn)練狀態(tài)的分鐘級回滾,硬件故障導(dǎo)致的斷訓(xùn)量下降 50%
引入 AI 運維智能體,通過多層架構(gòu)日志分析系統(tǒng)實現(xiàn)分鐘級故障定界,覆蓋 25 類軟硬件故障解決方案,將故障處理時長從數(shù)天級降至分鐘級
從人民郵電報報道獲悉,長穩(wěn)運行能力直接將大模型訓(xùn)練周期縮短近三分之一,資源利用率近 100%,為 AI 技術(shù)工業(yè)化量產(chǎn)奠定基礎(chǔ),可支撐自動駕駛、生物醫(yī)藥、新材料研發(fā)等前沿領(lǐng)域技術(shù)進步。此外,中國移動還在黑龍江、廣東打造了智算運維樣板間。
值得一提的是,在今年 10 月 11 日的 2025 中國移動全球合作伙伴大會主論壇上,中國移動宣布升級“AI+”行動計劃,明確到 2028 年底,中國移動將持續(xù)加大對人工智能領(lǐng)域的投入力度,總體投入翻一番,建成國內(nèi)規(guī)模最大、技術(shù)領(lǐng)先的智算基礎(chǔ)設(shè)施,探索十萬卡智算集群建設(shè),全國產(chǎn)智能算力規(guī)模突破 100 EFLOPS。