在近年大型語言模型(Large Language Models,LLMs)的發展中,強化學習(Reinforcement Learning, RL)與可驗證獎勵機制(Verifiable Rewards)結合的技術——簡稱為 RLVR(Reinforcement Learning with Verifiable Rewards)——已成為提升模型推理能力的熱門方法。RLVR 尤其在數學與程式碼推理任務上展現出顯著成效,被認為可讓模型持續自我強化,從而使 LLM 超越基礎模型(base model)的內在限制,學習到全新的推理模式。本次由 Yue 等人發表於 NeurIPS 2025,並獲得最佳論文第二名的《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》,即針對 RLVR 的實際效用進行了嚴謹而全面的檢視,挑戰目前對於 RLVR 促進推理能力提升的普遍認知。
研究背景與動機
隨著 GPT、PaLM 等大型語言模型在語言理解及推理任務上的突破,研究界開始尋求方法讓模型不只是億萬參數堆疊的靜態產物,而能透過類似人類的強化學習過程持續優化自身能力。RL 在強化代理(agent)探索策略、逐步改進決策品質上有深厚基礎,因此學者們將其與可驗證獎勵機制結合,用以指導 LLM 在明確且可度量的推理任務中提升績效。
此類方法之所以備受期待,是因為若 RLVR 能成功促成模型抽象推理能力上的根本蛻變,不僅能突破傳統預訓練限制,還可能帶來突破性的人機交互與智能演化能力。然而,在眾多研究多以小規模指標(如 pass@1)作為評估標準的同時,對模型在大規模生成場景(如 pass@k,k 值較大)下的推理能力脈絡卻少有系統性的探討。作者團隊正是看準這一盲點,藉由全面實驗及理論分析,檢視 RLVR 在推理能力激發上的真實效用。
核心方法與創新
本論文的創新核心在於:
- 跨模型族群系統性檢驗:涵蓋多種主流 LLM 家族及六種主流 RLVR 算法(如 PPO、DDPG 等),消除單模型單算法的偶然性,強調普適性。
- 採用 pass@k(k 值涵蓋小到大)作為關鍵評估指標:此指標衡量模型在產生多個解答樣本時的涵蓋率,進一步反映模型策略空間的廣度與推理多樣性。
- 覆蓋度(coverage)與困惑度(perplexity)分析:這種分析揭示了生成推理內容與基礎模型能力的關聯與界限,提供量化基礎模型對 RLVR 後模型表現的影響。
- 與蒸餾(distillation)技術的比較實驗:蒸餾作為一種模型壓縮及知識轉移方法,作者發現其在引入新推理模式方面有顯著效果,反襯 RLVR 方法的局限性。
整體而言,本研究方法從多角度、多層次審視 RLVR 引領推理能力突破的真實圖景,填補了學界對 RLVR 實際成效的理解空白。
主要實驗結果
當前 RLVR 訓練後的 LLM 在常用指標 pass@1(即模型僅產生最可能解答時的正確率)下的確優於相應基礎模型,但該優勢隨 k 值(產生解答數量)的增加呈下降趨勢,甚至在大 k(如 k=50、100)時,基礎模型反而得分較高,這暗示 RLVR 訓練並未顯著擴展模型的解答策略空間或推理多樣性。
除此之外,覆蓋度與困惑度分析揭示,所有 RLVR 好成績其實都在基礎模型能力範圍內,換言之,RLVR 並未真正激發出經驗之外的嶄新推理結構,而是較為保守地在原有能力中優化搜索策略。
六種主流 RLVR 演算法的表現大致相當,均未達到理論最佳,表明當前 RL 訓練框架在挖掘基礎模型潛能方面仍大有進步空間。相較之下,蒸餾法能夠有效從教師模型中抽取並引入新的推理能力,成為擴展模型智能的另一條務實路徑。
總結實驗發現,現行 RLVR 技術尚無法實現所謂“超越基底模型推理能力”的夢想,印證了社群對 RL 在 LLM 適用性及創新潛能的謹慎態度。
對 AI 領域的深遠影響
此篇論文不僅對 RLVR 這一新興研究方向提出關鍵性的反思,還從理論與實證雙重視角警醒整個 AI 研究社群:
- 重新審視強化學習在 LLM 智能提升中的角色。論文指出,僅有基礎的 RL 訓練框架及可驗證獎勵設計可能不足以激發模型的真正推理創新,促使研究者慎重考慮 RL 的訓練策略與環境互動設計。
- 強調評估指標多樣性的重要性。超越單一指標(如 pass@1),改以涵蓋更大搜索空間的 pass@k,能更真實反映模型推理能力的深度與廣度,避免認知偏差。
- 鼓勵探索新型 RL 訓練範式。論文建議未來可朝向持續擴大規模的訓練流程、多輪交互及多代理環境等複雜設定,以挖掘 RL 在 LLM 推理強化上的潛能。
- 多模型合作的思路被凸顯。蒸餾展現出可從大型教師模型引入新知識的優勢,暗示集成、轉移學習及結合多種技術是推動 LLM 智能躍進的可行方向。
整體而言,此論文為當前 LLM 強化學習研究帶來了謹慎且富有洞察的反思,既點出了現有方法的侷限,也激發了新思路與未來研究方向,對 AI 理論基礎與實際應用的平衡發展均有深遠助益。
對於從事 LLM 訓練與推理性能提升的工程師和研究生來說,理解 RLVR 的局限性不僅有助於合理評估當前技術水準,也為規劃未來創新訓練方法提供了寶貴依據。本文論述提醒我們,AI 智能的真正飛躍,仍需在訓練架構、獎勵設計與模型交互方式上持續突破,而非僅止於現有方法的追求小幅優化。
論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:
張貼留言