近年來,隨著大型語言模型(Large Language Models, LLMs)在自然語言處理、數學推理、程式碼生成等多重任務上的卓越表現,如何進一步提升其推理能力成為研究熱點。特別是結合強化學習(Reinforcement Learning, RL)的技術,如「可驗證獎勵的強化學習」(Reinforcement Learning with Verifiable Rewards, RLVR),被認為能促進模型探索更多策略,激發出超越基礎模型(base model)本身的推理新能力。本文《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》由 Yue 等學者於 NeurIPS 2025 發表並獲得最佳論文亞軍,其研究聚焦於對目前 RLVR 強化推理能力的真實效用做了深入且系統性的檢驗,對於 AI 類語言模型推理能力的界定及未來強化學習方法的設計提出了重要啟示。
研究背景與動機
LLMs 如 GPT 系列和 PaLM 等,面臨著推理能力提升的瓶頸,特別在複雜數學題和程式解題等高階任務中,有時無法保證答案的準確和邏輯完整性。為了突破這一瓶頸,過去研究嘗試透過 RLVR 技術,藉由設計可檢驗且明確的獎勵信號,指導模型在多次互動或生成中自行探索更優推理策略,期望模型能「自我進化」,不斷學習並擁有比原始基礎模型更強的推理能力。然而,這類技術的實際效果究竟如何?在多大程度上能帶來「真正新」的推理能力?這正是本文的核心質疑與研究動機。
核心方法與創新
本文團隊採用了跨多個模型家族的實驗設計,結合六種主流 RLVR 演算法,並針對數學推理、程式碼生成和視覺推理等多領域基準進行評估。主要評價指標為 pass@k,其特點是隨著 k 增大,能反映模型生成多次嘗試中包含正確解答的比例,因此是評估模型推理覆蓋率及能力穩定性的良好指標。
創新之處在於作者將基礎模型的最高能力視為「理論上界限」,透過比較基礎模型與 RLVR 調教後模型在不同 k 值下的表現差異,判斷 RL 是否確實挖掘出基礎模型尚未展現的推理模式。此外,團隊透過模型困惑度(perplexity)與生成答案覆蓋率分析,進一步確認推理能力的來源與本質,從定量和質化角度探討 RLVR 對模型推理能力的實質提升程度。
主要實驗結果
令人驚訝且重要的發現是,在小規模嘗試次數(例如 k=1)的評估下,RLVR 訓練模型確實較基礎模型表現優異,但隨著嘗試次數增加(k 大幅增大),基礎模型的 pass@k 分數反而超越 RLVR 模型。這代表 RLVR 並未拓展推理能力的全域空間,而是優化了某些特定策略,導致在有限次嘗試下性能提升,但無法產生「全新」推理邏輯或策略。
更深入的困惑度與覆蓋率分析指出,所有觀察到的推理能力極限均被基礎模型設定的能力框架所限制——也就是說,RLVR 並沒有超越基礎模型的思維邊界。此外,六種主流 RLVR 演算法表現相當,均未能有效突破優化瓶頸,遠未達到理論最優。
另一個有趣的比較是蒸餾技術(distillation),透過從教師模型學習,蒸餾方法能引入全新的推理策略與模式,真實擴展模型的推理空間,與 RLVR 形成鮮明對比,指出目前 RLVR 的侷限性。
對 AI 領域的深遠影響
本研究具有重要的理論與實務啟示。首先,它明確指出,目前主流 RLVR 方法雖然在增強 LLM 單次嘗試的準確率上有效,卻無法激發基礎模型潛在的全新推理能力,這對於研究者和實務開發者有助於重塑對 RL 在 LLM 推理能力提升角色的期望。
其次,強化學習在智慧代理(agent)領域的成功並不自動轉譯到大型語言模型上,這體現了語言模型生成特性及複雜推理的特殊挑戰。本文提出未來 RL 研究可朝向結合持續擴展(continual scaling)及多回合代理環境互動(multi-turn agent-environment interactions)方向發展,試圖突破現有訓練設定的枷鎖,激發基礎模型未被挖掘的潛能。
最後,這篇論文也鼓勵學術界重新審視大模型推理能力提升的評估指標與方法,特別是建議針對模型在多次嘗試下的覆蓋率設計更嚴謹的分析框架,避免過度依賴單次生成的指標,從而獲得對模型推理真實能力更全面的認知。
綜上所述,《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》不僅揭露了 RLVR 在大型語言模型推理強化上的現實侷限,更為強化學習技術與大型模型整合的未來發展提供了方向指引,是一篇極具啟發性的頂尖論文。
論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:
張貼留言