2026年6月23日 星期二

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

近年來,大型語言模型(Large Language Models, LLMs)的推理能力因為在數學、程式設計與視覺推理等領域的卓越表現,成為人工智慧研究中的熱門話題。特別是強化學習(Reinforcement Learning, RL)配合可驗證回饋(Verifiable Rewards, VR)的方法—統稱為RLVR—引起了廣泛關注。RLVR被認為有助於LLM在基本模型(base model)基礎上不斷自我提升,進而發展出新的推理策略與思維模式。2025年NeurIPS上由Yue等人發表的論文《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》則對此現象提出了質疑,並對RLVR在實際推理能力提升上的極限做了系統且嚴謹的檢視,獲得了「Best Paper Runner-Up」獎項。

研究背景與動機

大型語言模型如GPT系列不斷規模擴大,帶來推理能力質與量的突破,但如何讓這些模型不只是被動學習大量資料,而能在推理過程中持續自我優化和演化,成為核心挑戰。強化學習長期以來是訓練能夠探索環境、累積策略的主要方法之一,研究者遂嘗試將此框架應用到LLM,配合明確且可驗證的回饋信號(如數學題目的正確答案),期望模型能在解題與推理上不斷進步。這樣的RLVR方法看似能讓模型超越先前只能模仿訓練數據的局限,具備某種程度上的「自主學習與創新」。然而,作者猶豫此觀念是否過於理想化?RLVR究竟在何種程度上啟動了新的「推理能力」,抑或只是將既有的能力以更好方式利用?此問題是該文章最大的動機來源。

核心方法與創新

本論文的創新在於,使用相當嚴謹且系統化的方法,針對六種主流的RLVR算法,以多個大型模型系列(包含不同架構與規模)的基礎模型進行訓練,並在數學、程式設計和視覺推理等多元領域的多樣化基準測試集上比較表現。研究團隊首創性地採用pass@k(在k個生成的解答中至少有一個正確的機率)作為主要評估指標,並特別觀察k值從小到大的表現變化差異。這種評估策略避免只看單一最佳答案的狹隘視角,而是全面衡量模型推理的「覆蓋率」與「多樣性」,能有效反映內在推理能力的深度與廣度。

除了定量評測外,作者進一步進行了覆蓋率(coverage)與困惑度(perplexity)分析,這兩項分析有助解釋模型生成答案時的語言分佈與推理路徑特性,深入理解結果背後的機理。此外,論文還將RLVR效果與知識蒸餾(distillation)策略相較,探究哪種方法更能真正開拓模型的推理能力。

主要實驗結果

研究發現驚人且耐人尋味。雖然RLVR訓練過的模型在小k(例如k=1)時的表現確實優於未經強化學習的基礎模型,但當k逐漸變大時,基礎模型的pass@k指標卻超過了RLVR模型。換句話說,表面上RLVR提升了最佳答案的品質,卻未能提升模型生成多樣且覆蓋面廣的解答集合,代表根本推理能力的"上限"並未因RLVR而擴大。

更深入的覆蓋率與困惑度分析指出,目前RLVR所激發的推理能力實際上是受到基礎模型能力的限制,並未出現質的飛躍。進一步比較六種主流RLVR算法的表現,結果均相差無幾,且大大低於基礎模型的潛力上限,顯示目前的強化學習方法尚未充分且有效地利用基礎模型所蘊藏的能力。

相較之下,知識蒸餾通過將教師模型的推理策略與模式傳遞給學生模型,更容易導入新型態的推理模式,從而真正擴展了模型的推理範圍與深度。這一發現挑戰了RLVR作為推理能力根本提升手段的既有認知。

對 AI 領域的深遠影響

本論文的結論對目前及未來LLM的強化學習研究帶來重大啟示。第一,RLVR雖然應用前景看似光明,但其現有框架並未突破基礎模型的理性推理邊界,尚未實現真正的自我超越。這警示研究者在評估RL增強效果時,需謹慎選擇評估指標並避免以偏概全,尤其是要重視模型生成答案的多樣性與覆蓋範圍。

第二,論文指出未來改進強化學習在LLM推理能力提升上的方向,諸如持續擴大模型規模的同時進行訓練(continual scaling),以及引入多回合的代理人與環境互動(agent-environment interaction),以讓模型能在更加複雜且真實的場景中累積知識和策略變化。這些新范式可能是RL能解鎖LLM真正推理潛力的關鍵。

最後,這篇論文同時也提醒我們,除了強化學習,知識蒸餾及其他教師監督策略在推理技能培養上具有獨特優勢。整體而言,該研究不僅對LLM的強化學習訓練方法提供了重要的理論與實驗依據,也引發學界對「推理能力本質」的更深層次反思。

總結而言,Yue等人的研究揭示了當前RLVR方法在現有架構下的效果局限,為LLM推理能力的培養指明了更具挑戰性但也更有潛力的研究方向。這對工程師和研究生理解及設計下一代智能模型,提供了寶貴的參考框架與啟發。


論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:

張貼留言