2026年6月1日 星期一

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

近年來,隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域持續突破,模型的推理能力成為研究者熱切探討的核心議題。其中,「強化學習與可驗證獎勵」(Reinforcement Learning with Verifiable Rewards, RLVR)手法因其在數學推理與程式碼生成任務上的顯著提升,而引起廣大關注。學界普遍認為,透過類似傳統強化學習中「探索—利用」的機制,RLVR能使LLM不斷自我強化,從基底模型(base model)擴增新的推理能力。然而,來自Yue等人於 NeurIPS 2025發表的《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》一文,對這樣的常態認知提出了嚴謹而深刻的質疑。

研究背景與動機

隨著LLM規模擴大,模型在語言生成、推理與複雜任務上表現卓越,但模型的推理能力主體仍受限於基底訓練資料與架構。傳統的強化學習(RL)透過獎勵回饋,讓智能體在環境交互中學習達成目標的策略。將這思路應用於LLM中,即透過設計可驗證的獎勵機制引導模型生成更優推理解答,進而期望它展現出超越基底模型的推理模式和能力。過去一些研究因RLVR在特定領域(如數學題解答、程式碼修正)展現爆發式提升,社群普遍樂觀地相信RLVR能啟發LLM具備嶄新推理手法。

不過,這篇論文洞察到,目前大多數RLVR研究仍停留於驗證提升準確率,而未系統探討提升推理能力的本質為何?此外,模型在多重解答中表現是否能超出基底模型的極限,亦是鮮有論述。為此,本論文以嚴謹科學方法切入,針對多個LLM家族、不同RL演算法,並涵蓋數學、程式碼與視覺推理等多類任務,使用大k值的pass@k作為評估指標,全面剖析RLVR訓練後模型的推理極限。

核心方法與創新

本研究的核心方法涵蓋幾大創新點:

  • 系統化跨模型、多演算法評測:作者挑選六種主流RLVR演算法,包括基於策略梯度、Q-learning等不同機制,同時涵蓋多個LLM架構,藉此拆解RLVR對推理能力增強的普適性與侷限。
  • 廣泛多任務、多指標驗證:任務跨足數學推理(如算術推導)、程式碼編寫與修正、以及視覺相關推理,比以往只聚焦單一任務更全面。評估指標以pass@k為主,但特別強調大k值(例如k=100或更高),用以觀察生成多樣解的覆蓋率與能力邊界。
  • 深入覆蓋率與困惑度分析:作者不僅評估標準的正確率,更從生成多樣性與模型困惑度(perplexity)層面分析,探索模型是否真的透過RLVR形成新的“思考路徑”,或只是重新排列基底模型已有的知識。
  • 比較蒸餾(Distillation)方法的效果:除RLVR外,該研究特別比較蒸餾技術對推理能力的影響,提供一個基準看RLVR是否能「真正」擴展模型的能力邊界。

主要實驗結果

實驗結果同時令人驚訝又具啟發性:

  1. 短期優勢與長期極限:在小k值的pass@k(例如只取1次生成),RLVR訓練後的模型確實表現優於基底模型,表現如同文章標題所述使推理能力「看似」增強。但隨著k值增大,基底模型在覆蓋率與多樣解答廣度上反而超過RLVR模型,這意味著RLVR並未挖掘出超越基底模型的「新推理模式」或「新策略」。
  2. 推理能力中樞源自基底模型:透過困惑度和覆蓋度分析,研究證明RLVR模型實際運用的是基底模型中內建的「潛能」,RL過程等於是聚焦於更有效的利用或篩選,但未注入根本的新演繹能力。
  3. 六種RLVR演算法表現雷同且仍未最佳:實驗中各演算法的推理能力提升幅度相近,且均未能逼近基底模型能力的理論極限,顯示現行RLVR技術尚有明顯優化空間。
  4. 蒸餾技術能擴展推理能力:作者發現,透過老師模型蒸餾給學生模型,能將教師的「新推理模式」有效帶入學生模型,使其推理能力得以突破基底模型範圍。有別於RLVR,蒸餾可發掘並傳遞更本質的認知策略。

對 AI 領域的深遠影響

本論文提供了一個重要且務實的洞見:當前RLVR方法雖在多項任務上提升LLM表面推理表現,但這種提升大多是基底模型能力的優化,而非創新推理能力的誕生。透過嚴謹實驗與精確分析,研究動搖了目前業界對 RL 促進LLM推理力質變的普遍期待。

這不僅影響未來RL在語言模型調適的策略設計,更提出了新挑戰:如何設計更高效、持續且能與環境進行多回合交互的RL範式,才能真正激發LLM新型態的認知模式與推理能力?同時,研究揭示蒸餾等技術依然是有效開拓模型推理能力的重要工具,暗示跨模型知識傳遞或許是實務中提升推理能力的關鍵路徑之一。

對於正在深入開發高效、靈活推理LLM的科研與工程團隊,本論文具備以下啟示:

  • 不宜過度依賴現有RLVR方法提升模型推理能力,應理解其提升多為優化基底表現而非能力邊界突破。
  • 必須設計更具探索性、長期交互且多階調控的強化學習架構,嘗試解放模型隱藏潛能,並檢驗實際能否形成全新的推理思維。
  • 可透過模型蒸餾等多元訓練策略,相互借重強化學習與蒸餾技術的優勢,協同提升模型質與量的推理力。

總結來說,這篇榮獲NeurIPS 2025 Best Paper Runner-Up的論文,以嚴謹批判的研究態度提醒了整個AI研究社群:推理能力的提升不應僅止於表層指標的堆疊,更需打破基底模型設限,真正打造具有「原生認知創新」的大型語言模型。未來RL與LLM的結合仍有無限可能,唯有深化算法本質及訓練機制,方能突破現有瓶頸,引領人工智慧邁向更智慧、更符合人類思維的全新里程碑。


論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:

張貼留言