行有餘力則以學文: Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

2026年5月26日星期二

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

近年來，大型語言模型（Large Language Models, LLMs）在自然語言處理領域持續取得突破，特別是在具思考推理性的任務上，如數學計算與程式碼生成。傳統理解中，透過強化學習（Reinforcement Learning, RL）調教語言模型，能促使模型在原有基礎上探索更有效的解題策略，進而提升其推理能力。尤其是強化學習搭配可驗證獎勵（Reinforcement Learning with Verifiable Rewards, RLVR）方法近來廣受關注，因其在改善LLMs解決數理與編程問題的表現上顯示出明顯成效。然而，這方法是否真如直覺般，引導模型學習出「超越基礎模型」的根本推理能力，仍未有系統性證明。

本論文由Yue等人發表於NeurIPS 2025，並獲最佳論文亞軍，精準檢視並挑戰了現今RLVR對LLMs推理力提升的真實效果。研究團隊藉由跨多模型族群、多種強化學習演算法，搭配數學、程式碼及視覺推理等多元基準測試，採用大規模的pass@k（其中k值很大，意味著審視大量生成答案的成功率）指標，來全方位解析RLVR訓練後模型的推理極限。本論文深刻揭示了先前研究未曾精察的細節與現象，挑戰了RLVR能實質催生新推理能力的主流假設，具有重要指標意義。

研究背景與動機

隨著LLMs模型容量與訓練數據的擴大，其自然語言生成與理解能力大幅提升，但在結構嚴謹、須多步邏輯推理的專業任務中，仍面臨挑戰。強化學習提供了一套理論基礎，用以從環境（任務反饋）中調整生成策略，期望讓模型能「自主探索」解題路徑，相較於純監督式學習，有機會突破先前弱化的推理瓶頸。RLVR則將強化學習與可驗證獎勵機制結合，讓模型在提供的可量化「正確性」信號中持續優化，被廣泛看好能培育出具更強邏輯推理能力的LLMs。

然而，作者團隊注意到，理論上RL能激發模型推理潛能的假設，尚缺乏大型且嚴謹的量化分析，尤其是當評估標準從單一top-1答案，轉為大k取樣通過率時，其「推理真實進展」狀態尚不清楚。這種觀察促使他們設計全方位實驗，意圖明確界定RLVR是否突破了基礎模型的能力上界。

核心方法與創新

此研究的核心在於系統性比較多種RLVR演算法（涵蓋六個主流方法），以及多種不同架構與規模的LLMs，並且透過涵蓋數學推理、程式碼合成與視覺推理的豐富基準，採用不同k值的pass@k指標來評估模型表現的精細差異。作者強調，使用大k值的pass@k指標能更完整反應模型潛在生成空間與多樣性，而非僅僅考查模型針對top-1解答的成效。

此外，論文中利用覆蓋率（coverage）與困惑度（perplexity）分析，檢驗了模型在生成正確答案時的內在機制，進一步探索推理能力的來源。研究還與知識蒸餾（distillation）進行對比，後者透過教師模型輸出數據，能夠真正引導學生模型產生新的推理模式。

這些方法的綜合使用，使得研究不僅能精確評估RLVR的成效，更能揭露推理能力是否為「新學得」或僅是基礎模型能力的重現與強化。

主要實驗結果

實驗結果令人意外：RLVR訓練後的模型雖在小k值（如k=1）下看似優於基礎模型，但當k值升高時（意味著評估更全面的答案空間），基礎模型反而取得更高的pass@k分數。這表示RLVR並未打破基礎模型的推理容量邊界，所謂提升更可能是利用已有能力作出更集中的選擇，並非創造全新推理模式。

覆蓋率與困惑度分析進一步佐證此點，發現模型生成正確答案的分布並未明顯超出基礎模型的語言表達範圍，反映出推理能力依然受限於原模型的內部結構。數量化測試表明，六種主流RLVR演算法表現相當，且距離基礎模型潛力的理想利用還有明顯距離。

相比之下，研究團隊展示了知識蒸餾能帶來真正的新推理模式擴展，透過引入教師模型的專有策略與標註數據，使學生模型在多樣化且深入推理任務上取得更本質性的提升。

對 AI 領域的深遠影響

本研究的重要貢獻是對強化學習在提升LLMs推理能力上的真實效用提出挑戰與警示，它強調：

目前主流RLVR方法多半只能強化基礎模型的策略選擇和答案濃縮，並未促使模型產生全新推理能力。
單純靠RL信號，很難突破模型已學知識與架構的瓶頸，若期待LLMs在推理上達到跨越式成長，必須探討更具創新與複雜交互模式的RL訓練框架。
該研究啟發業界與學界未來可朝多回合agent-environment互動、持續擴展模型規模（continual scaling）等方向優化RL訓練，以期真正喚醒LLMs隱藏的理性能力。
同時，知識蒸餾的成功示範說明，融合教師模型知識仍是提升推理及專業能力的重要路徑，值得結合RL與其他監督方案形成更強勁的混合訓練策略。

綜合而言，這篇論文以紮實嚴謹的實證研究，刷新了我們對強化學習改進推理的認知底線，為未來設計更精巧有效的強化學習架構提出了明確方向。同時也提醒研究者在追求LLMs智能飆升的過程中，要兼顧模型內涵能力的真實成長，而非被表層指標欺騙。這對推進自然語言推理、數學與程式碼生成等AI核心能力的發展，將產生指標性且持續性的影響。

論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837