2026年3月31日 星期二

融合推理能力的迴圈語言模型:突破大型語言模型擴展瓶頸的新架構

本次訪談深入探討大型語言模型(LLMs)擴展的現狀與挑戰,並介紹了一種結合了推理機制的「迴圈語言模型」(Looped Language Models)新架構,突破傳統模型在擴展上的限制。

一開始,講者回顧了OpenAI在ChatGPT之前發表的論文《Scaling Laws for Neural Language Models》,闡明模型大小與訓練資料量的關係——即擴大模型規模需要相應增加資料量才能有效降低損失,避免過擬合及算力浪費。根據該研究,模型大小增加8倍時,資料應增加約5倍以達最佳效能,這成為社群訓練大型模型的重要參考。

然而,隨著使用的資料集幾乎達到互聯網資料極限,資料已成為限制因素。此時,有效解決算力與資料間的耦合便成為關鍵。混合專家模型(Mixture of Experts)可在不增加計算成本下擴大模型,但仍需更多資料支持。繼而,引入推理模型成為突破口,尤其是以「連鎖思考」(Chain of Thought)等提示技術激發模型多步推理能力。

推理模型帶來兩大挑戰:其一是上下文擴展帶來忘記關鍵信息的風險,二是複雜問題可能需要多次推理嘗試才能得到正確答案。此外,推理受限於詞彙表架構,不同語言和文化中表達相同概念所需的token數不同,導致模型未能充分利用大量訓練token中的潛在知識。

針對這些問題,講者團隊提出了「迴圈語言模型」架構,將推理過程直接融合進預訓練中,形成第三尺度的擴展軸。該模型在生成每個token前,通過一個「退出閘門」判斷是否足夠確定輸出,若不滿意則將內部潛向量反覆送回輸入端重新運算,直到達到退出條件或迴圈次數上限。

此架構的優點包括:

  • 不再執行基於詞彙的長鏈產生,減少了詞彙表壓縮鍵值快取(KV-cache)的問題。
  • 充分利用了海量訓練token,實現推理過程的深度和多階段思考。
  • 在相較於具十倍以上參數量且訓練token更多的傳統大型模型上,擁有相當甚至更優的表現,展現高參數效率。

模型內的退出機制以sigmoid函數計算每次迴圈結束的退出概率,採取累積概率函數(CDF)進行判斷,保證退出概率合理且被限制在[0,1]區間內。初期訓練中,模型易落入「退出概率集中在某一迴圈」的陷阱,透過引入熵正則化,鼓勵退出概率分布更為均勻,成功避免此問題。

在訓練和推理階段,不同的KV快取策略被測試,包含從退出迴圈獲取KV快取、各迴圈KV快取平均、及第一迴圈KV快取。結果顯示除第一迴圈KV快取外,其餘方法效果相當,顯示模型在一定程度對KV快取策略具魯棒性。

訓練過程極為繁重,但團隊透過分階段優化和模型結構調整,成功訓練出1.4億與2.6億參數的模型版本,分別對應於單迴圈和兩倍迴圈設計。

此外,團隊以挑戰性數學競賽題目及控制合成數據集作評測,發現迴圈結構主要促進的是「知識操作」(knowledge manipulation)能力,而非單純的知識儲存與提取。往往多於一迴圈的推理能顯著提升模型在解決複雜問題時的準確率,而非迴圈數更多便一定更優,因為過度迴圈會導致性能下降。

總結而言,此方法展現了將多步推理機制融入預訓練的巨大潛力,突破現有LMMs的擴展瓶頸和計算資源限制。不僅對大型語言模型具有重要意義,也有助於提升小型模型在有限資源下的表現效率,類比人腦並非靠增加神經元數,而是更有效利用已有神經連結進行學習思考。



沒有留言:

張貼留言