行有餘力則以學文: Are Emergent Abilities of Large Language Models a Mirage? 深度解析

2026年5月28日星期四

Are Emergent Abilities of Large Language Models a Mirage? 深度解析

在近年來大型語言模型（Large Language Models, LLMs）的研究熱潮中，「突現能力」（Emergent Abilities）成為一個備受關注的現象。該現象指的是模型規模增大後，原本小型模型未展現的能力，在大型模型上突然出現，且這種出現往往相當「銳利」且難以預測。例如，某些推理、指令理解或複雜語言任務的能力，似乎只有在模型超過某個參數規模門檻後才會出現。

然而，NeurIPS 2023 上由 Schaeffer、Miranda 與 Koyejo 發表的傑出論文《Are Emergent Abilities of Large Language Models a Mirage?》對這一現象提出了全新視角與挑戰。本文不僅針對突現能力的「本質」提出質疑，還透過理論、實驗與元分析，嘗試解釋這種能力是否真實存在，或只是一種「幻覺」。

研究背景與動機

大型語言模型從 GPT-3、InstructGPT 到 ChatGPT、GPT-4，隨著參數規模從十億到千億甚至兆級不斷提升，研究社群陸續觀察到一些任務能力並非逐步提升，而是在某個規模呈現「爆發」式提升，這引發了所謂突現能力的概念。此類能力的「銳利轉變」與「不可預見性」被認為是將 LLM 與以往模型本質區隔開來的重要特徵，也成為大型模型設計與研究的重要指標。

然而，對這一現象的理解尚不完全清楚，容易產生誤解或過度解讀。研究者往往只關注某一特定性能指標的變化，而忽略了指標本身的性質。文章作者便是基於這樣的背景，提出質疑：所謂的突現能力是否其實是研究者選擇了「非線性」或者「不連續」的度量方式，才導致性能曲線呈現跳躍或斷層現象？換句話說，這是否只是度量的假象，而非模型行為本身的根本轉變？

核心方法與理論創新

論文的核心論點集中於「度量指標對突現能力判斷的影響」這一角度。作者先從數學模型出發，提出一個簡單框架說明：給定同一模型族群與任務，只要使用線性或連續性良好的性能評估指標，模型表現通常會隨著規模呈現平滑且可預測的增長；反之，若使用了非線性、斷層或離散化的指標，則可能錯誤呈現出突現的現象。

為驗證此理論，作者分三大步驟展開嚴謹實證：

針對 InstructGPT/GPT-3 家族的實驗：選取先前宣稱存在突現能力的任務，分析不同的績效指標選擇對突現現象的影響。實驗結果明確顯示，替換度量標準後，性能曲線變得更加平滑，所謂「突然出現」的臨界點不復存在。
對 BIG-Bench 上突現能力的元分析：BIG-Bench 是一個包含多種任務與評估標準的大型基準，作者在此做綜合分析，探討各種評估指標如何影響結果。研究驗證了不同指標選擇導致截然不同的突現能力判定，有些竟完全消失。
跨領域視覺任務的應用驗證：作者進一步嘗試在多種視覺任務與深度網絡上故意選擇特定指標，產生「假性突現」能力，證明如此現象非語言模型專利，也非模型規模的「基本特性」，而是與度量工具本質相關。

主要實驗結果

作者的實驗結果一致指出：

突現能力現象並非模型行為的獨特本質：它在很大程度上取決於「如何測量」模型性能，非黑即白的激烈跳躍很可能是「度量謬誤」下的產物。
選擇更合適、平滑、連續的評估方法後，模型性能多呈現平滑、連續且可預測的提升曲線，反駁了突現能力不可預期的特性。
這種現象不僅限於語言模型，延伸到視覺領域與其他神經網絡架構，也可透過「巧妙度量」造假式地再現「突現」效果，凸顯其不具普適性。

對 AI 領域的深遠影響

此研究結果對 AI 模型規模化探索與能力評估帶來多重深刻啟示：

反思突現能力的研究意義：此前對突現現象的追崇容易誤導研究方向，若將其視為「模型質的飛躍」可能誤判技術進展，本文警示需謹慎檢視背後的方法論與度量標準。
強調評估指標的重要性：研究指出指標的數學特性（如線性、連續性）對研究結論有關鍵影響，促使未來在 AI 能力測試中更嚴謹、全面地設計和解讀評估指標。
改變對模型擴展的期待與策略：若突現能力非本質屬性，而是度量現象，那麼單純擴大模型規模期待取得非線性飛躍的想法應更為謹慎，且強調合理架構設計與評估展望。
推動跨任務、跨模態評估方法的改進：作者透過視覺任務實驗，證明了度量選擇能在不同領域造成認知偏差，促使 AI 研究社群將目光投向跨領域評估指標的一致性與合理性。

總結而言，《Are Emergent Abilities of Large Language Models a Mirage?》一文以嚴謹的理論與實驗分析，挑戰了大型語言模型中備受矚目的突現能力現象，指出它有可能是研究者主觀選擇評估指標的「幻覺」，而非模型規模化的根本屬性。這不僅豐富了我們對大型模型行為的理解，也促進了 AI 性能評估方法的反思與革新，是一篇對機器學習與人工智慧社群極具啟發性的傑出之作。

論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004