隨著大型語言模型(Large Language Models, LLMs)在各種自然語言處理任務中展現卓越的表現,強化學習(Reinforcement Learning, RL)因其能幫助模型在交互式環境中不斷優化策略的特性,逐漸被視為提升 LLM 推理能力的關鍵技術之一。特別是近期崛起的「具可驗證獎勵的強化學習」(Reinforcement Learning with Verifiable Rewards, RLVR)方法,在數學推理、程式編寫及視覺推理等領域取得顯著進步,被認為具潛力使 LLM 不僅在原基礎模型(Base Model)能力之上增長,甚至激發出嶄新的推理模式與策略。
本論文「Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?」由 Yue 等人發表於 NeurIPS 2025,並榮獲最佳論文第二名(Best Paper Runner-Up),作者針對 RLVR 在提升 LLM 推理力上的真實效能提出嚴謹且系統性的挑戰與驗證。他們從多個重要層面重新檢視 RLVR 培訓的 LLM 推理能力,並質疑目前的強化學習是否真的在本質上激勵了模型突破固有推理上限。
研究背景與動機
過去強化學習在經典領域如遊戲或機器人操控中,扮演了幫助代理人(Agent)透過試錯學習策略以達成任務的核心角色。類似地,現實中數種 RL 變形版本被引入提升 LLM 表現,尤其是 RLVR,它結合可驗證的獎勵信息,理論上應使 LLM 持續自我優化,學得新推理技巧。然而,工程與研究社群仍存在重要疑問:透過 RLVR 強化學習調教後的 LLM,是否真的獲得了超越其原先基礎架構限制的「全新」推理能力?或只是擅長從基礎模型的能力內部挖掘出更佳解答?
此問題的答案對未來如何設計 RL 與 LLM 交互訓練框架以及資源分配策略至關重要,因為如果現有 RLVR 方法僅是「包裝」而非「實質增能」的話,則需要更創新且深層的訓練架構,或改變對推理能力的評估標準。
核心方法與創新
本研究提出了全方位且細緻的評估框架,深入比較多種 LLM 家族、不同 RL 演算法,以及在數學、程式碼與視覺推理方面的模組化基準測試(benchmarks)。這些測試「通過率」的標準設定為 pass@k,其中 k 值大表示需要模型在 k 次嘗試中至少有一次成功,對於追蹤模型在較大答案集合下的推理覆蓋率特別有意義。
相較於多數先前工作只關注 pass@1(僅看單次輸出成功率),本論文強調使用較大 k 值,引導觀察模型是否真正具備廣泛且多樣的推理能力。研究同時分析模型置信度分布、計算熵(perplexity)與結果覆蓋率,量化基礎模型能力作為理論上限的概念。
重要的是,作者不僅比較六種流行 RLVR 演算法(例如 PPO、A2C 等)在推理表現上的差異,還引入蒸餾(distillation)的概念。蒸餾技術通過教師模型將更高階的認知或推理策略輸送到學生模型中,檢測是否能因此突破基礎模型範圍,使推理能力產生質的飛躍。
主要實驗結果
實驗結果非常令人震撼。儘管 RLVR 訓練後的 LLM 在 pass@1 表現上普遍優於基礎模型,代表其在單次嘗試中更常成功,但在魔鏡放大至高 k 值(如 k = 100)時,反而是基礎模型擁有更高的 pass@k 分數,意味著基礎模型潛藏的多樣推理解答比 RLVR 模型更為豐富。
更深入的分析發現,RLVR 模型的推理能力實際上沒有突破基礎模型的理論上限。從覆盖率和困惑度分析看,強化學習訓練像是「集中火力」在基礎模型已有的推理策略上優化選擇,但並未開發出新的推理模式或路徑。
此外,六種主流 RLVR 演算法在同一基礎模型上展現出相似的推理表現,且都遠未達到最大化利用基礎模型潛力的效果。此結果突顯目前 RLVR 實踐的瓶頸。
有趣的是,蒸餾過程能引入真正的新推理模式,因為教師模型的推理策略被「遷移」到學生模型中,使學生模型在覆蓋範圍與策略多樣性方面擴展超出基礎模型界限,成為突破單純 RL 訓練的有效途徑。
對 AI 領域的深遠影響
這項研究為 LLM 結合強化學習技術的發展指出了關鍵的理論與實務警示——簡單套用現有 RLVR 演算法並無法保證 LLM 推理能力的「本質」提升,更多僅是優化基礎模型已有策略的再利用。換言之,所謂「強化學習激勵推理能力」仍待更嚴謹的檢驗。
對於後續研究,作者呼籲開發更加精細且多元的強化學習訓練框架,包括:
- 持續尺度擴展(Continual Scaling):透過不斷增加模型容量與數據多樣性,嘗試突破能力瓶頸。
- 多回合代理人-環境互動(Multi-turn Agent-Environment Interaction):充分模擬複雜決策情境,使模型能嘗試多階推理過程。
- 更具結構和邏輯驗證的獎勵函數設計,遠超過目前簡單準確性回饋。
整體而言,本論文的洞察將推動 AI 社群對於 LLM 深層能力挖掘的思考,重塑如何將強化學習策略與自然語言推理結合的研究目標與方法論。未來在尋求讓 LLM 不僅是「模仿型」的文字生產者,更成為「真正懂得推理與解決問題的智能體」時,RL 的進階改良與融合顯得尤為迫切與關鍵。
最後,此研究提供了一道警鐘:不要被單次性能提升所蒙蔽,而需從更全面、多元及長遠的視角來評估模型能力的提升。唯有如此,我們才能在 AI 理論與實務上真正跨出關鍵一步,促進智能系統在推理、判斷與創新方面的根本突破。
論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:
張貼留言