2026年6月14日 星期日

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

隨著大型語言模型(Large Language Models, LLMs)的迅速發展,如何進一步提升這些模型的「推理能力」成為人工智慧領域的研究熱點。推理能力指模型在面對數學、程式設計與視覺推理等各類複雜問題時,能否透過邏輯分析與策略應用,從而產生正確且合乎邏輯的答案。近年來,「具可驗證獎勵的強化學習」(Reinforcement Learning with Verifiable Rewards, RLVR)因其在提升 LLM 推理表現上的潛力,受到了廣泛關注。該方法類似於傳統強化學習讓智能體探索與學習新策略,期望使 LLM 超越基礎模型(base model)的能力上限,開創出新的推理模式與能力。

然而,本篇由 Yue 等學者發表於 NeurIPS 2025 的論文《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》對 RLVR 是否真能促使 LLM 實現根本「推理能力」的突破提出了嚴謹的質疑與檢驗。他們系統性分析了多種 LLM 家族、不同 RL 演算法,以及數學、程式碼和視覺推理等多元評測基準,在多種參數條件下(特別是評價指標如大型 k 值的 pass@k),探查 RLVR 對模型推理能力的影響。

研究背景與動機

原先 RLVR 被視為提升 LLM 推理能力的重要利器,研究社群普遍期待強化學習過程中智能體通過反覆嘗試與獲得有意義的獎勵(可驗證的推理正確性),能從根本上擴展模型的推理深度與多樣性。這種想法背後的直覺是:模型不只是機械地提升「選出最可能答案」的機率,而是在策略空間中發現新的推理途徑與解決策略。

然而,這篇論文質疑成效的實際程度,提出了重要的檢驗視角:即便在 RLVR 影響下,模型是否真能發展出新的推理模式?還是只是利用基礎模型本身已有的潛力,在表面上獲得評測分數提升?此一問題關係到未來 RL 應用於 LLM 的可行策略與所能達成的突破極限。

核心方法與創新

本研究從幾個層面出發,精心設計實驗驗證 RLVR 的推理能力提升狀況:首先,多方比較了不同模型族群,包括主流大型語言模型,並使用六種流行的 RLVR 演算法。其次,涵蓋了多種推理任務類型,包含數學計算、程式碼生成和視覺推理挑戰,確保評測的廣度與深度。再者,採用「pass@k」這項評估指標,特別強調在 k 值很大時的表現,這比起只取 k=1(最高分答案)更能彰顯模型推理空間的多樣性與廣度。

此外,作者透過「覆蓋率(coverage)」與「困惑度(perplexity)」分析工具,探討模型輸出推理過程的廣度與深度,判斷提昇是否真正超越基礎模型。另外,作者引入「蒸餾(distillation)」方法作為對比,測試是否能有效帶來新的推理模式,藉此證實不同強化學習之外的途徑對推理能力的影響。

主要實驗結果

實驗結果帶來強烈的震撼與反思:在低 k 值(如 k=1)狀況下,經過 RLVR 微調的模型確實優於原始基礎模型,能較為準確地生成正確答案。但當 k 值增加,即需評估模型生成出多樣且正確答案的能力時,基礎模型反而擁有更高的 pass@k 分數。換言之,基礎模型本身蘊藏豐富且多元的解題策略與推理選擇空間,而 RLVR 訓練並未激發出全新的推理視角或策略,反而在某種程度上限制了生成多樣化推理的潛力。

以覆蓋率與困惑度分析輔助驗證,作者發現 RLVR 訓練後的模型推理能力是「基礎模型能力的子集」,沒有明顯超越原本能力邊界。六種主流 RLVR 演算法在利用基礎模型潛力上,均表現相近且距離理想最優還有相當大的差距。

在此對照組實驗中,蒸餾方法展現出了可觸發新推理模式與能力擴展的可能。蒸餾藉由從教師模型傳遞知識給學生模型,有效引進教師模型的推理策略,使得學生模型在多樣性與創新性上展現更佳表現,顯示改善 LLM 推理能力不應只仰賴現行 RLVR。

對 AI 領域的深遠影響

這篇論文不只是一份針對 RLVR 技術成效的冷靜調查,更是對未來 LLM 推理能力突破方向的重要啟示。現有 RLVR 設計模式—強調單輪獎勵反饋與有限探索策略—可能無法激發模型真正突破基礎能力的潛力。透過「連續規模擴展(continual scaling)」與「多輪人機互動」、「代理環境交互」,或許能建立更貼近人類認知過程的強化學習框架。

此外,該研究強調了評估指標與實驗設計的重要性。單一的評測分數或 k=1 的成功率不足以判斷方方法的深層推理強度,研究者須聚焦於多維度、多樣化和大範圍的推理表現,並結合多樣化解析工具進行深入溯源。

總結來說,Yue 等人的研究揭示了當前 RLVR 在激勵 LLM 獨創推理能力方面的瓶頸,促使整個 AI 社群重新思考如何以更精密且靈活的強化學習策略,真正拓展大型語言模型的認知層面。未來研究可以從強化學習架構本身的創新、多層次獎勵設計與持續互動學習等方向突破,開創更具「智慧啟發」的模型訓練範式。


論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:

張貼留言