2026年5月8日 星期五

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域的迅速發展,強化學習(Reinforcement Learning, RL)特別是結合可驗證回饋(Verifiable Rewards)的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)被認為是推動模型自我提升推理能力的關鍵技術之一。近期研究聲稱,透過 RLVR 訓練,LLM 能在數學計算、程式碼生成以及其他推理任務中展現超越基礎模型(Base Model)的推理能力,類似傳統 RL 幫助智能體(agent)探索並掌握新策略的效果。然而,在 NeurIPS 2025 年獲得「最佳論文候選獎」(Best Paper Runner-Up)的這篇論文〈Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?〉,由 Yue 等人提出了一個有別於主流看法的批判性分析,全面而系統地檢驗 RLVR 真正是否能激發 LLM 超越基礎模型的推理能力。

研究背景與動機

大型語言模型如 GPT 系列、PaLM、LLaMA 等在多種語言任務上表現卓越,但本質上仍是透過海量文本資料的自監督學習而得,且其推理能力很大程度上取決於基礎模型的架構與訓練數據。強化學習,尤其搭配人類回饋(Reinforcement Learning with Human Feedback, RLHF)或可驗證回饋的 RL 變體,被視為一條能讓模型「自主學習」並突破既有推理框架的途徑。尤其中,在數學、程式設計乃至視覺推理等精確任務中,RLVR 展現出模型性能明顯提升的趨勢。許多研究因此推測,RLVR 不只是調整模型參數,更激發了模型內部出現新的推理軌跡與策略。然而,這樣的假設尚未經過嚴格的邊界測試與大規模探索。

本研究的核心動機即是在以下問題上尋求答案:RLVR 加強的推理能力到底是否為全新且超越原基礎模型的認知機制?這些提升是出於深層推理能力擴展,還是基於搜尋空間更廣、試錯更多而達成的「策略優化」?又或者,現有的 RLVR 技術只是挖掘了基礎模型內在潛能的不同層面,但並未讓模型真正「跳出框架」?對此,作者團隊設計了一整套嚴謹實驗方案,使用多種模型家族、多種 RL 算法、多樣化推理基準,並以通過率指標 pass@k(k 值設定大)測評模型表現,來探索這些問題。

核心方法與創新

本文的研究框架主要包含三個核心架構。第一,作者選取了多款主流大語言模型,同時涵蓋不同設計哲學,包括變壓器模型及變種,以確保結果的普適性。第二,在 RL 算法方面,涵蓋了六種現今流行的強化學習策略,並將其用於模型微調,特別利用 RLVR 架構以獲得可驗證的回饋訊號。第三,評估指標上,作者使用了 pass@k,其涵蓋了隨機生成多個解答並檢視其中至少 k 個解答是否通過測試的機率。與過去多採 k = 1 的評分標準不同,本文特別考察較高 k 值,對模型生成能力的「覆蓋範圍」與推理深度進行度量。該指標能更全面反應模型理論推理的潛能,而非僅僅依賴單解答的準確性。

此外,本研究在分析階段融入了「覆蓋率與困惑度」(coverage and perplexity)分析。透過這些分析,研究者試著從模型生成的文字條件機率以及答案多樣性切入,評估推理能力的本質。更重要的是,團隊特別將基礎模型視為一種「推理能力的上界」(upper bound),用以對比強化學習優化後模型的潛力釋放程度。

值得一提的是,作者同時對比了另一種模型強化途徑——蒸餾(distillation)。蒸餾是將教師模型的知識轉移給學生模型的過程,常用於模型壓縮或能力傳遞。該研究發現蒸餾能有效引入全新的推理模式,這點跟 RLVR 有明顯區別,提供了後續改進 RL 訓練框架的重要參考。

主要實驗結果

實驗結果帶來了令人驚訝但耐人尋味的結論。首先,RLVR 訓練確實改善了模型在 pass@1(即只取第一個生成答案)上的表現,讓模型在數學證明、程式碼生成等高難度推理任務中表現更優。然而,隨著 k 值增大(表示將生成多個答案作為整體成功標準),基礎模型的 pass@k 成績反而超越了 RLVR 優化後的模型。此一反轉說明,RLVR 培養的推理「新模式」並不真正存在,模型並未突破基礎模型知識運用與結構限制,反而表現出有限且集中在少數高品質答案的趨勢。

通過覆蓋率與困惑度的分析,作者進一步證明了這些優化都是在基礎模型的生成空間內部「挖掘」改良的結果,而非生成原本模型無法涵蓋的創新推理路徑。換句話說,RLVR 的強化並非創造了「新推理能力」,而是在利用原有模型生成策略的最佳化。這對目前「強化學習激勵能夠引出模型全新認知特質」的預期提出了嚴峻挑戰。

相較之下,蒸餾方法能顯著擴展模型的推理視野與生成多樣性,後者在 pass@k 指標下展現出由教師模型帶來的新推理模式,這顯示不同的模型強化途徑在激勵能力與產生機制上存在本質差異。

對 AI 領域的深遠影響

本論文的發現對 AI,特別是語言模型的強化學習研究,具有相當重要的啟示與警示意義。首先,它提醒我們必須審慎看待強化學習技術在推理能力提升上的「表面成績」,不可盲目假設強化學習訓練必能激發模型內部質的飛躍。當前 RLVR 技術多半是利用更有效率的搜尋與答案篩選策略,但尚未真正將底層模型推向根本性的新思考模式與推理能力。

這也促使研究者重新思考未來的強化學習框架設計方向。例如,本論文建議持續放大訓練規模、多回合環境對話(multi-turn agent-environment interaction)、以及其他能創造多樣化智慧交互的 RL 形式,都可能是突破瓶頸的關鍵。此外,該研究強調整合模型蒸餾等知識傳遞機制,或許能在激勵新推理模式方面補足 RLVR 的不足。

最後,該研究成果也代表了 AI 領域對自我監督學習與強化學習協同進化過程中的一種深刻反思:模型的推理能力不只是參數微調或獎勵優化的結果,而是牽涉到模型架構、訓練資料、多模態交互以及智能體與環境動態融合的多層次挑戰。對推理能力的真正擴展,仍需更多工整的理論及實證支撐。

總結來說,Yue 等人的這篇論文不僅質疑了當前強化學習技術在大型語言模型推理能力提升方面的常見認知,也引導整個社群往更全面、更嚴謹、更具創新的方向思考未來可行的強化學習策略,這對促進更健全且具有突破性的模型智能提升,具有無可替代的學術及工程價值。


論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:

張貼留言