行有餘力則以學文: Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

2026年4月13日星期一

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

隨著大型語言模型（Large Language Models, LLMs）在自然語言處理、數學推理、程式生成等多領域展現出卓越表現，如何進一步提升其推理能力成為AI研究的熱點話題。近年來，一種結合強化學習與可驗證回饋的訓練方法──Reinforcement Learning with Verifiable Rewards（RLVR）因其在數學與程式挑戰中顯著增強模型性能而受到高度關注。該方法類比於傳統強化學習中代理(agent)透過探索學習新策略的過程，預期能讓LLM持續自我成長，並習得超越原始基礎模型的新型推理技能。

然而，來自Yue等人於NeurIPS 2025發表的《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》一文中，研究團隊針對RLVR現有訓練流程做了嚴謹且細緻的實證檢驗，聚焦於RLVR訓練後的LLM在推理能力上的「真實增益」。作者選擇涵蓋多個模型族群、不同強化學習演算法，以及多樣化的數學、程式碼與視覺推理任務，並用大尺寸的pass@k指標（即允許大量解答嘗試時的成功率）作為主要評估標準，試圖透過精確量化揭露RLVR所帶來的能力本質。

研究背景與動機

LLM的推理能力雖已隨模型規模擴增及微調策略優化而不斷提升，但其潛在的可塑性與是否能透過後續訓練方法進一步激發出全新思考途徑，仍缺乏系統性驗證。RLVR因結合環境回饋信號，理論上能引導模型探索更廣泛的解題空間，學習超越基礎語言模型的推理策略。然而，過去多數研究傾向於觀察k=1（僅取單一解答）的成功率改善，缺乏全面探討在多嘗試解答（大k）環境下，模型是否真有新能力產生。這引發團隊想確定RLVR是否實質帶來「推理能力的本質突破」，或僅是優化了基礎模型內已有技能的展現方式。

核心方法與創新

本研究創新地以大型llm多嘗試（pass@k中k取極大值）作為核心評價指標，超越單一樣本準確度，更貼近LLM在實際應用中多方案生成的現況。透過此方法，作者能細緻比較RLVR訓練模型與基礎模型在涵蓋率與困惑度（perplexity）上的差異，藉此評估推理能力的「深入廣度」與「多樣性」。此外，研究團隊系統測試六種主流RLVR演算法，跨模型架構與多種推理問題，確保結論的普適性與魯棒性。

在實驗設計上，作者同時引入「蒸餾（distillation）」方法作為比較基準。蒸餾透過大師模型向學習模型傳遞隱含策略與思考路徑，有助於模型產生創新推理模式。該設計有助指出RLVR與其他提升策略在激發新推理機制上的差異。

主要實驗結果

令研究團隊較為意外的是，在所有實驗設定下，RLVR訓練的模型雖在k=1時展現出顯著優於基礎模型的表現，惟隨著k增加，基礎模型的多樣解決方案覆蓋率提升，最終在pass@k（大k）評分上反而高於RLVR訓練模型。代表RLVR模型主要擅長提供較準確但較窄式的解答集合，而未能顯示出根本性的「新」推理模式產生。

同時，藉由擴展覆蓋範圍與困惑度分析，研究發現RLVR的推理能力基本被基礎模型本身所限制，其提升效果更多是從已有訊息中「精煉」而來，而非衍生出全新推理框架。衡量六種RLVR演算法均表現相仿，表示目前技術尚未有效發揮強化學習潛能以突破基礎模型瓶頸。

相較之下，蒸餾策略則展現了裂變式的推理能力擴展，能從教師模型中引入並培育出嶄新推理路徑，成功擴充模型整體的解題多樣性及深度，這也昭示了未來模型提升方向可能不應單純依賴RLVR。

對 AI 領域的深遠影響

本論文的發現對上RL在LLM推理能力提升的研究方向提出了重要啟示。長久以來，研究者普遍推崇強化學習架構能持續激發模型能力，然而此文實證指出現有RLVR方法仍無法突破基礎模型固有限制，說明當前RLVR尚未真正在引導模型自我演化出新型推理策略。這不僅挑戰了過去部分過度樂觀的效能解讀，也促使學界重新審視強化學習在大型語言模型進階階段的實際價值與挑戰。

同時，作者呼籲未來RL策略需融合更複雜、連續的環境互動設計（例如多回合代理-環境互動）、持續性擴展，以及將RL與蒸餾等其他訓練方法有機結合，以真實激發LLM推理能力多元化及創新性。這也暗示下一代AI模型訓練將不再單純依賴規模擴大，而是結合更智慧化的學習架構突破瓶頸。

總結而言，此篇論文不僅以縝密的實驗設計和跨模型檢驗揭示了RLVR目前的限制，更在AI推理能動性提升的理論與實務上提供了寶貴參考，成為強化學習與大型語言模型結合研究的重要里程碑，也為未來設計更優秀的智能系統開啟新的研究視野。

論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837