應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

摩爾線程大模型對齊研究獲國際頂級學(xué)術(shù)會議認(rèn)可:URPO 框架入選 AAAI 2026

2025-11-14 09:02 IT之家
關(guān)鍵詞:摩爾線程

導(dǎo)讀:摩爾線程提出的新一代大語言模型對齊框架 —— URPO 統(tǒng)一獎勵與策略優(yōu)化,相關(guān)研究論文近日被人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議 AAAI 2026 收錄,為簡化大模型訓(xùn)練流程、突破模型性能上限提供了全新的技術(shù)路徑。

  11 月 13 日消息,摩爾線程提出的新一代大語言模型對齊框架 —— URPO 統(tǒng)一獎勵與策略優(yōu)化,相關(guān)研究論文近日被人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議 AAAI 2026 收錄,為簡化大模型訓(xùn)練流程、突破模型性能上限提供了全新的技術(shù)路徑。

  據(jù)介紹,在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中,摩爾線程 AI 研究團(tuán)隊提出了 URPO 統(tǒng)一獎勵與策略優(yōu)化框架,將“指令遵循”(選手)和“獎勵評判”(裁判)兩大角色融合于單一模型中,并在統(tǒng)一訓(xùn)練階段實現(xiàn)同步優(yōu)化。URPO 從以下三方面攻克技術(shù)挑戰(zhàn):

  數(shù)據(jù)格式統(tǒng)一:將異構(gòu)的偏好數(shù)據(jù)、可驗證推理數(shù)據(jù)和開放式指令數(shù)據(jù),統(tǒng)一重構(gòu)為適用于 GRPO 訓(xùn)練的信號格式。

  自我獎勵循環(huán):針對開放式指令,模型生成多個候選回答后,自主調(diào)用其“裁判”角色進(jìn)行評分,并將結(jié)果作為 GRPO 訓(xùn)練的獎勵信號,形成一個高效的自我改進(jìn)循環(huán)。

  協(xié)同進(jìn)化機(jī)制:通過在同一批次中混合處理三類數(shù)據(jù),模型的生成能力與評判能力得以協(xié)同進(jìn)化。生成能力提升帶動評判更精準(zhǔn),而精準(zhǔn)評判進(jìn)一步引導(dǎo)生成質(zhì)量躍升,從而突破靜態(tài)獎勵模型的性能瓶頸。

  實驗結(jié)果顯示,基于 Qwen2.5-7B 模型,URPO 框架超越依賴獨(dú)立獎勵模型的傳統(tǒng)基線:在 AlpacaEval 指令跟隨榜單上,得分從 42.24 提升至 44.84;在綜合推理能力測試中,平均分從 32.66 提升至 35.66。作為訓(xùn)練的“副產(chǎn)品”,該模型內(nèi)部自然涌現(xiàn)出的評判能力在 RewardBench 獎勵模型評測中取得 85.15 的高分,表現(xiàn)優(yōu)于其替代的專用獎勵模型(83.55 分)。

  從摩爾線程官方獲悉,目前,URPO 已在摩爾線程自研計算卡上實現(xiàn)穩(wěn)定高效運(yùn)行。同時,摩爾線程已完成 VERL 等主流強(qiáng)化學(xué)習(xí)框架的深度適配。