應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

面壁智能發(fā)布端側(cè)大模型“前進(jìn)四”MiniCPM 4.0,號(hào)稱性能大小王

2025-06-09 09:09 IT之家

導(dǎo)讀:面壁智能發(fā)布端側(cè)大模型 MiniCPM 4.0。

  6 月 7 日消息,面壁智能發(fā)布端側(cè)大模型 MiniCPM 4.0。該公司稱新模型通過(guò)自研CPM.cu推理框架,在極限場(chǎng)景下實(shí)現(xiàn)最高 220 倍提速,常規(guī) 5 倍提速,支持在 vLLM、SGLang、LlamaFactory 等框架部署。

  此次發(fā)布的一款 8B 閃電稀疏版,采用創(chuàng)新稀疏架構(gòu)掀起高效風(fēng)暴;另一款 0.5B 則被稱作“輕巧靈動(dòng)的最強(qiáng)小小鋼炮”。

  據(jù)官方介紹,此次面壁推出的 MiniCPM 4.0 系列 LLM 模型擁有8B、0.5B 兩種參數(shù)規(guī)模,針對(duì)單一架構(gòu)難以兼顧長(zhǎng)、短文本不同場(chǎng)景的技術(shù)難題,MiniCPM 4.0-8B 采用「高效雙頻換擋」機(jī)制,能夠根據(jù)任務(wù)特征自動(dòng)切換注意力模式:在處理高難度的長(zhǎng)文本、深度思考任務(wù)時(shí),啟用稀疏注意力以降低計(jì)算復(fù)雜度,在短文本場(chǎng)景下切換至稠密注意力以確保精度,實(shí)現(xiàn)了長(zhǎng)、短文本切換的高效響應(yīng)。

  據(jù)了解,MiniCPM 4.0 可在vLLM、SGLang、LlamaFactory、XTuner等開(kāi)源框架部署。其內(nèi)置自研CPM.cu極速端側(cè)推理框架,從投機(jī)采樣創(chuàng)新、模型壓縮量化創(chuàng)新、端側(cè)部署框架創(chuàng)新幾方面,帶來(lái) 90% 的模型瘦身和速度提升,官方宣稱將實(shí)現(xiàn)端側(cè)推理“從天生到終生”的絲滑。