行有餘力則以學文: 融合推理能力的迴圈語言模型：突破大型語言模型擴展瓶頸的新架構

2026年3月31日星期二

融合推理能力的迴圈語言模型：突破大型語言模型擴展瓶頸的新架構

本次訪談深入探討大型語言模型（LLMs）擴展的現狀與挑戰，並介紹了一種結合了推理機制的「迴圈語言模型」（Looped Language Models）新架構，突破傳統模型在擴展上的限制。

一開始，講者回顧了OpenAI在ChatGPT之前發表的論文《Scaling Laws for Neural Language Models》，闡明模型大小與訓練資料量的關係——即擴大模型規模需要相應增加資料量才能有效降低損失，避免過擬合及算力浪費。根據該研究，模型大小增加8倍時，資料應增加約5倍以達最佳效能，這成為社群訓練大型模型的重要參考。

然而，隨著使用的資料集幾乎達到互聯網資料極限，資料已成為限制因素。此時，有效解決算力與資料間的耦合便成為關鍵。混合專家模型（Mixture of Experts）可在不增加計算成本下擴大模型，但仍需更多資料支持。繼而，引入推理模型成為突破口，尤其是以「連鎖思考」（Chain of Thought）等提示技術激發模型多步推理能力。

推理模型帶來兩大挑戰：其一是上下文擴展帶來忘記關鍵信息的風險，二是複雜問題可能需要多次推理嘗試才能得到正確答案。此外，推理受限於詞彙表架構，不同語言和文化中表達相同概念所需的token數不同，導致模型未能充分利用大量訓練token中的潛在知識。

針對這些問題，講者團隊提出了「迴圈語言模型」架構，將推理過程直接融合進預訓練中，形成第三尺度的擴展軸。該模型在生成每個token前，通過一個「退出閘門」判斷是否足夠確定輸出，若不滿意則將內部潛向量反覆送回輸入端重新運算，直到達到退出條件或迴圈次數上限。

此架構的優點包括：

不再執行基於詞彙的長鏈產生，減少了詞彙表壓縮鍵值快取（KV-cache）的問題。
充分利用了海量訓練token，實現推理過程的深度和多階段思考。
在相較於具十倍以上參數量且訓練token更多的傳統大型模型上，擁有相當甚至更優的表現，展現高參數效率。

模型內的退出機制以sigmoid函數計算每次迴圈結束的退出概率，採取累積概率函數（CDF）進行判斷，保證退出概率合理且被限制在[0,1]區間內。初期訓練中，模型易落入「退出概率集中在某一迴圈」的陷阱，透過引入熵正則化，鼓勵退出概率分布更為均勻，成功避免此問題。

在訓練和推理階段，不同的KV快取策略被測試，包含從退出迴圈獲取KV快取、各迴圈KV快取平均、及第一迴圈KV快取。結果顯示除第一迴圈KV快取外，其餘方法效果相當，顯示模型在一定程度對KV快取策略具魯棒性。

訓練過程極為繁重，但團隊透過分階段優化和模型結構調整，成功訓練出1.4億與2.6億參數的模型版本，分別對應於單迴圈和兩倍迴圈設計。

此外，團隊以挑戰性數學競賽題目及控制合成數據集作評測，發現迴圈結構主要促進的是「知識操作」（knowledge manipulation）能力，而非單純的知識儲存與提取。往往多於一迴圈的推理能顯著提升模型在解決複雜問題時的準確率，而非迴圈數更多便一定更優，因為過度迴圈會導致性能下降。

總結而言，此方法展現了將多步推理機制融入預訓練的巨大潛力，突破現有LMMs的擴展瓶頸和計算資源限制。不僅對大型語言模型具有重要意義，也有助於提升小型模型在有限資源下的表現效率，類比人腦並非靠增加神經元數，而是更有效利用已有神經連結進行學習思考。

行有餘力則以學文

2026年3月31日星期二

融合推理能力的迴圈語言模型：突破大型語言模型擴展瓶頸的新架構

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年3月31日 星期二

融合推理能力的迴圈語言模型：突破大型語言模型擴展瓶頸的新架構

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年3月31日星期二