2026年6月7日 星期日

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

在大型語言模型(Large Language Models, LLMs)持續打造人工智慧新高峰的同時,提升模型的「推理能力」成為近期研究熱點之一。特別是在數學計算、程式碼撰寫及視覺推理等複雜任務,能否讓模型不僅靠語料記憶,而是展現類似人類的邏輯思考,成為檢驗 AI 能力的重要指標。強化學習(Reinforcement Learning, RL)因其在傳統智慧體策略探索的成功,遂被借用於強化 LLMs,尤其是利用「可驗證回饋的強化學習」(Reinforcement Learning with Verifiable Rewards, RLVR)來誘發模型的推理能力提升。NeurIPS 2025 同時獲選最佳論文亞軍的 Yue 等人,針對當前流行的 RLVR 框架,提出了嚴謹且系統化的評估與分析,質疑 RLVR 是否真的能使 LLM 超越其基礎模型局限,開拓新的推理能力。

研究背景與動機

強化學習本質上是讓智能體透過與環境互動、自主探索策略以達成目標,這對於遊戲 AI 等領域貢獻甚大。對於 LLMs 而言,近年來將 RLVR 方法應用於模型訓練中,透過設計可驗證且明確的任務回饋(如數學解題的正確性),以期鼓勵模型不斷「自我修正」和強化推理邏輯。其核心假設是:RL能幫助模型從「數不清的備選答案」中選出或發展出更優異且新的推理策略,藉此超越單靠預訓練獲得的語言模式,開啟更高級的認知能力。

然而,Yue 等人指出,市面上已有研究多使用小規模的 top-k(如 k=1)或精度作為評估標準,容易忽略更全面的推理表現。此外,多數研究往往聚焦於某一算法或單一模型架構,缺少橫跨不同 RL 演算法與 LLM 家族的對比,難以揭示整體趨勢與底層限制。基於此,本論文提出一套更嚴謹的評測框架,結合高規模的 top-k 指標(pass@k,k 值設定很大),並涵蓋數學、編程和視覺推理等多元任務,目的是實證探查 RLVR 訓練是否真正推動模型思考邊界向前。

核心方法與創新

本研究的最大創新在於:

  • 系統化橫跨多種模型與算法的實驗設計:涵蓋了市面上常見的六個 RLVR 變體訓練出來的 LLM,包括不同模型規模與架構,並評估它們在代表性的數學、程式碼生成及視覺推理基準上的表現。
  • 引入大型 top-k 評價指標:傳統只看 k=1 的 pass@k 衡量嚴苛且「單一答案」的表現,作者分析了從 k=1 到大規模 k 的 pass@k,揭露模型答案覆蓋範圍及推理多樣性的真實狀況。
  • 基礎模型上限理論:提出以基礎(Base)模型的表現視為理論上限,透過遮罩分析(coverage)與困惑度(perplexity)評估,探討 RLVR 訓練是否能真正超越基模固定的能力範圍。
  • 對比蒸餾方法的推理能力擴展:將 RLVR 與教師蒸餾(distillation)策略相較,發現蒸餾不僅僅是複製能力,而是有可能引入並深化新的推理思路,為提升推理能力的途徑提供了基準參考。

主要實驗結果

論文的實驗呈現了如下關鍵發現:

  1. RLVR 在低 k 值表現優於基礎模型:當只采樣少量答案時,RLVR 訓練的模型確實展現更高的正確率,似乎提升了模型「首選答案」的質量和推理精確性。
  2. 基礎模型在高 k 值反而表現更佳:當 k 增大,允許模型展示多樣答案時,基礎模型的 pass@k 分數超過 RLVR 模型,說明 RLVR 並未從根本上增加模型可產生的多元且準確的推理策略。
  3. 推理能力被基礎模型固有限制:經過困惑度和涵蓋率分析,發現 RLVR 訓練並未擴充模型的「解題空間」,即無法產生突破性的新推理路徑,表現進步似乎來自於更好地利用基礎模型已存在的能力。
  4. 六種 RLVR 演算法表現相近且非最佳:雖然這些方法在中小規模上有進展,但相較理論基礎模型容量,仍有明顯階段性差距,顯示目前 RLVR 技術尚未將基礎模型潛能完整挖掘。
  5. 蒸餾方法能真正引入新推理策略:類似於人類通過示範學習獲得新思維,蒸餾可以將教師模型的推理多樣性及精妙策略灌輸給學生模型,從而拓展推理能力,與 RLVR 形成鮮明對比。

對 AI 領域的深遠影響

這篇論文的貢獻在於深刻剖析並校正了業界對 RLVR 強化推理能力的過度樂觀認知。幾項主要啟示值得 AI 研究者及工程師注意:

  • 理論與實踐的鴻溝提醒:RL 雖理想上能激勵智能體「探索未知解法」,但目前的 RLVR 訓練策略和回饋設計,仍無法突破基礎模型的推理框架,表明至少在當前模型與數據規模下,「自我改進」能力仍受限。
  • 評估方法需多維度化:只考察 top-1 答案易造成結果偏頗。本文使用高 k 值的 pass@k 指標及推理軌跡覆蓋率判定,揭露了更深層結構,提供今後研究更全面、科學的評測方法典範。
  • 推理能力擴展需多元策略融合:與 RLVR 相比,蒸餾方法能帶來真正的策略多樣性擴充。未來可考慮結合 RL 多回合人機互動、持續擴展模型規模與多任務訓練等策略,跳脫當前的侷限。
  • 研究趨勢指向更複雜的學習環境設計:論文強調未來 RLVR 的發展需突破「靜態獎勵函數設計」瓶頸,搭配多輪代理和環境互動、動態回饋機制等,才能有助於激發 LLM 的真正推理和創造力。

總結而言,Yue 等人的工作以嚴謹的科學精神挑戰既有觀念,為 LLM 強化推理能力的技術路徑提供了重要的反思基石。這不僅幫助研究者釐清現有技術的瓶頸,也指引未來探索更具突破性的強化學習方法,期望在不久的將來,能讓 LLM 真正具備類人智慧的邏輯與推理能力。


論文資訊
📄 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
👥 Yue, Chen, Lu, Zhao, Wang, Song, Huang
🏆 NeurIPS 2025 · Best Paper Runner-Up
🔗 arxiv.org/abs/2504.13837

沒有留言:

張貼留言