應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

支持百萬(wàn)卡擴(kuò)展,中科曙光發(fā)布國(guó)內(nèi)首個(gè)開放架構(gòu) AI 超集群系統(tǒng)

2025-09-08 09:22 IT之家

導(dǎo)讀:中科曙光發(fā)布了國(guó)內(nèi)首個(gè)基于 AI 計(jì)算開放架構(gòu)設(shè)計(jì)的產(chǎn)品 ——曙光 AI 超集群系統(tǒng)。

  在 9 月 5 日至 8 日的 2025 重慶世界智能產(chǎn)業(yè)博覽會(huì)上,中科曙光發(fā)布了國(guó)內(nèi)首個(gè)基于 AI 計(jì)算開放架構(gòu)設(shè)計(jì)的產(chǎn)品 ——曙光 AI 超集群系統(tǒng)。

  該系統(tǒng)以 GPU 為核心,實(shí)現(xiàn)了“算、存、網(wǎng)、電、冷、管、軟”一體化緊耦合設(shè)計(jì),可為萬(wàn)億參數(shù)大模型訓(xùn)練推理、行業(yè)大模型微調(diào)、多模態(tài)大模型開發(fā)、AI4S 等場(chǎng)景提供算力底座。

  相比封閉系統(tǒng),曙光 AI 超集群系統(tǒng)除了通過(guò)緊耦合設(shè)計(jì)像一臺(tái)計(jì)算機(jī)般高效工作外,還支持多品牌 AI 加速卡以及兼容 CUDA 等主流軟件生態(tài),為用戶提供更多開放性選擇,并降低硬件成本和軟件開發(fā)適配成本,保護(hù)前期投資。

  附曙光 AI 超集群系統(tǒng)技術(shù)特點(diǎn):

  •   單機(jī)柜可搭載 96 張 GPU 卡、算力規(guī)模達(dá)百 P 級(jí)、訪存總帶寬超 180TB/s;支持多精度、混合精度運(yùn)算;支持百萬(wàn)卡超大集群擴(kuò)展

  •   千卡集群大模型訓(xùn)練推理性能達(dá)到業(yè)界主流水平 2.3 倍、開發(fā)效率提升 4 倍、人天投入減少 70%;存算傳協(xié)同,提升 GPU 計(jì)算效率 55%;先進(jìn)冷板液冷,394 項(xiàng)節(jié)能設(shè)計(jì) PUE 低于 1.12。

  •   121 項(xiàng)設(shè)備和鏈路 RAS 可靠性設(shè)計(jì);平均無(wú)故障時(shí)間(MTBF)提高 2.1 倍;平均故障修復(fù)時(shí)間(MTTR)降低 47%;超 30 天長(zhǎng)穩(wěn)運(yùn)行集群可靠性測(cè)試;實(shí)現(xiàn)百萬(wàn)級(jí)部件故障自動(dòng)分析與秒級(jí)隔離。

  •   基于 AI 計(jì)算開放架構(gòu)設(shè)計(jì);硬件適配多品牌 AI 加速卡;軟件兼容主流 AI 計(jì)算生態(tài);多項(xiàng)技術(shù)能力開放與共享。