2026年5月14日 星期四

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

在大型語言模型(Large Language Models,簡稱 LLMs)持續推動自然語言理解和生成能力邁向新高峰的同時,「如何進一步提升模型的推理能力」成為當前研究的關鍵議題之一。近期,強化學習(Reinforcement Learning, RL)特別是搭配「可驗證獎勵」(Verifiable Rewards)的強化學習方法(RLVR),因其在數學推理與程式碼生成等具挑戰性的任務上展現出顯著成效,受到業界與學術界的廣泛關注。傳統觀點認為,RL 透過不斷探索並強化策略,使得模型能夠逐步學會全新策略,進而突破基礎模型(base model)的推理天花板。基於此假設,RLVR 應能激發 LLMs 學習真正嶄新的推理模式與能力,超越其原本的訓練基底。

本篇 NeurIPS 2025 最佳論文候選作品由 Yue 等人提出,透過嚴謹且系統化的實證方法,挑戰了當前 RLVR 在 LLM 推理強化上的既有認知。論文標題《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》即直指問題核心:強化學習真的能在推理能力上帶來基底模型無法達成的質變嗎?研究團隊集合多個主流的 LLM 架構,涵蓋不同種類的 RL 演算法,以及多元化的數學、程式與視覺推理基準測試,並以通過率指標 pass@k(以較大 k 欄度評估)量化模型在推理任務中的表現,試圖解答這個問題。

研究背景與動機

大型語言模型由於預訓練在大量語言資料上,展現出驚人的語言理解和生成能力,但基礎模型的推理能力往往仍有限,例如在長步驟的複雜邏輯推理或程式碼合成等任務中仍有不足。強化學習理論上可作為補充,帶領模型在行為空間中不斷探索並獲得更優策略,尤其是搭配獎勵函數可以明確獎勵「正確推理與行動」,因此 RLVR 被寄予厚望可以拓展模型的思考深度與廣度,產生基底模型無法具備的「新」能力。

然而,至今對 RLVR 在 LLM 推理能力提升的內在機制及其上限缺乏全面且嚴謹的探討。本研究即從這一視角出發,深入挖掘 RLVR 訓練帶給模型推理技巧的本質影響,檢視其是否真的帶來根本性的質變,抑或只是在既有能力區間的範圍內做小幅度調整。

核心方法與創新

研究團隊設計一套嚴密的實驗框架來檢驗 RLVR 對 LLM 推理能力的貢獻,包含:

  • 多模型與多演算法比較:涵蓋多個不同規模與架構的大型語言模型,包括 GPT 系列及其他流行變種,同時測試六種主流的 RLVR 演算法,確保結論具有跨模型與跨方法的一般性。
  • 高通過率(pass@k)評估指標:與過去多用於驗證模型是否成功推理的低 k 值不同,本研究著重於以較大的 k(例如 k ≫ 1)評估模型的全方位推理覆蓋,藉此捕捉模型在策略多樣性與推理能力深度上的潛力。
  • 多樣化任務基準:涵蓋數學證明、程式碼生成以及視覺推理等多種挑戰性任務,全面測試模型在不同推理場景下的泛化能力。
  • 覆蓋率與困惑度分析:深入剖析 RLVR 訓練前後,模型生成答案的多樣性與自信度,判斷是否有本質上新推理模式或策略被刺激與展現。
  • 與知識蒸餾 (Distillation) 的比較:同時檢驗蒸餾技術是否能導入真正新的推理能力,提供 RLVR 效果的對照與參考。

主要實驗結果

論文揭示了令人驚訝且具有反思意義的關鍵發現:

  1. 頂層表現不完全反映新推理能力:在較小的 k (如 k=1)時,RLVR 訓練出的模型確實優於基底模型,顯示其在精準找到「最佳答案」的能力有所提升。但隨著 k 值增加,基底模型的累積 pass@k 分數反而超越 RLVR 模型,暗示 RLVR 訓練並未廣泛擴展模型的推理搜尋空間或策略多樣性。
  2. 推理能力受限於基底模型上限:覆蓋率與自信度分析表明,經 RLVR 免費訓練的模型其生成答案的多樣性並未明顯超出基底模型數據範圍,困惑度變化亦有限,顯示 RLVR 模型的推理能力並未突破基底模型原有能力的限制。
  3. 六種流行 RLVR 演算法表現相近且距離最優有明顯差距:意味著現有 RLVR 訓練框架在利用基底模型潛能方面仍大幅不足。
  4. 蒸餾技術可引入新推理模式:不同於 RLVR,知識蒸餾將教師模型中的多樣策略與推理模式有效 transferred 至學生模型,確實擴大了模型的推理範疇和能力。

對 AI 領域的深遠影響

本研究的結果對人工智慧特別是大型語言模型領域有多重啟示:

  • 重新審視強化學習在 LLM 推理提升中真實角色:長期以往 RL 被視作能突破基底模型限制的關鍵技術,但本論文指出,當前主流的 RLVR 機制尚未實現此一目標。這促使研究者必須更加謹慎地檢視 RL 在推理能力提升中所謂「本質提升」的證據,而非單純強化單步精準率的幻象。
  • 未來強化學習策略需創新設計:作者建議未來 RL 範式可能需要結合持續放大(continual scaling)、多輪次 agent-環境互動等新機制,才能真正激發 LLM 從基底模型能力中學習到具有本質創新的推理策略與行為。
  • 推理能力提升路徑多元化:相比 RL 目前受到的限制,知識蒸餾展示了其作為推理模式遷移與新能力引入的重要潛力,暗示融合蒸餾與 RL 甚至其他監督學習策略的混合訓練路徑值得深入探討。
  • 評估指標與任務設計重要性凸顯:透過較大 k 值的 pass@k 評估,研究避免了以單一最佳解答為核心的偏誤,提供了更完整且細膩的推理能力表徵,這對研發公平且嚴謹的模型評估標準具有深遠意義。

總結來說,Yue 等人此篇論文以嚴謹的實驗設計與深入的分析手法挑戰了 RLVR 在帶動 LLM 推理能力量變轉質變的主流觀點,揭示當前強化學習方法尚未釋放 LLM 潛力的真實現況。這不僅為未來 LLM 強化學習訓練提供了全新改進方向,也強化了對模型深層推理能力本質的理解,推動人工智慧研究往更成熟、更具理論與實證支持的方向邁進。


論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:

張貼留言