行有餘力則以學文: Are Emergent Abilities of Large Language Models a Mirage?

2026年5月3日星期日

Are Emergent Abilities of Large Language Models a Mirage? — NeurIPS 2023 優秀論文深度解析

近年來，大型語言模型（Large Language Models, LLMs）因其展現出所謂「突現能力」（Emergent Abilities）而備受關注。這些能力指的是小型模型中未見、但在模型規模達到一定門檻後卻突然出現的表現提升，且這種轉變非常銳利且難以預測，使得許多研究者和業界人士對擴大模型規模的趨勢充滿期待。然而，Schaeffer、Miranda 與 Koyejo 在 NeurIPS 2023 發表的論文《Are Emergent Abilities of Large Language Models a Mirage?》卻對這一普遍認知提出了挑戰，認為「突現能力」或許只是統計及度量方法的幻影，而非模型行為在規模增長中本質的跳變。

研究背景與動機

隨著 GPT 系列、InstructGPT 以及更大規模的模型持續刷新自然語言處理（NLP）任務的最佳成績，越來越多研究提出模型規模爆炸成長後會經歷性能的非線性躍升，這種現象被稱為「突現能力」。例如，某些推理、編碼解碼、甚至多語言識別的能力會在模型容量到達某個臨界點後突然暴增，遠超出推論自線性擴展的能力想像，讓人懷疑模型中可能出現了新的「質變」或內部結構的革命性改變。

然而，這樣的「突現」更像是一種「黑盒」現象，缺少從理論到實驗全方位解釋。尤其是，如果「突現」成立，對理解 AI 規模效應和設計系統策略都至關重要，但若是觀測方式的產物，或是與實際模型行為變化不符，就會誤導未來研究和應用方向。因此，作者提出一個關鍵問題：所謂「突現能力」是否真實存在，還是度量尺度與統計方法的結果？

核心方法與創新

本文的核心貢獻在於提出一個簡化的數學模型，將模型性能視為對規模變數連續且平滑的函數，並分析研究者「度量指標」的不同選擇如何影響性能曲線的觀察結果。作者指出，傳統論文中報告的「突現」往往基於 非線性、階梯式或不連續的度量方法，這類度量可能會將一條平滑上升的性能曲線切割得支離破碎，產生貌似「跳變」的假象。

具體來說，作者區分了兩類指標：

非線性或不連續的指標：譬如將模型的輸出映射到「是否過關」的二元判斷，這類指標在「邊界」附近的微小變化，會引起性能值的劇烈變動。
線性或連續的指標：例如損失函數值、連續的準確率分數，這些指標會隨模型規模平滑而穩定地改進，較不會產生突然躍升現象。

作者理論上證明：當用線性、連續指標衡量時，模型性能的曲線是可預測且平滑的；而所謂的「突現」多源自於非線性指標的解讀誤差。他們進一步將此理論帶入實證分析，通過三種互補的實驗設計來驗證假說。

主要實驗結果

基於 InstructGPT/GPT-3 系列的任務分析：
作者回顧並重現多個先前宣稱有突現能力的 NLP 任務，針對不同度量方法（例如精確答對率等非線性指標 vs. 連續損失函數）進行性能測量。結果發現，當採用連續指標時，原本被認為「跳躍性」的能力提升，實則呈現平滑且漸進的增長。
BIG-Bench 元分析：
針對包含超過百種大型模型的綜合性評測平台 BIG-Bench，作者分析多個「突現能力」任務的指標選擇，並驗證其度量對結果的影響。結論發現：多數原被標註為突然出現的能力，在調整評分標準與統計方法後，呈現持續且穩健的性能曲線，證實「突現」可能是一種插值錯覺。
跨領域、跨架構視覺任務實驗：
為驗證此理論的普適性，作者將「突現能力」的概念擴展到多個視覺任務及深度網絡結構。透過巧妙選擇非線性度量，他們成功製造出「從未見過」的突現現象，這再次體現出度量尺度在塑造「突現」觀察中的關鍵干預作用。

總體實驗充分支持作者提出的觀點：突現能力的不連續性極可能是度量選擇下固有的「幻覺」，並非模型規模擴大後能力的本質刻劃。

對 AI 領域的深遠影響

本論文挑戰了目前 AI 領域內頗具革命性的「突現能力」理念，從根本上重塑了大模型規模效應的理解框架。其影響可從以下幾點展開：

理論認識的刷新：多數現有對大模型規模效應的理論，其基石便是某些「能力跳躍」假設，認為模型在特定臨界點會產生質的轉變。本文提出的度量幻象論令此理論基礎需重新審視，強調以連續統計方法評估模型性能的必要性，避免基於誤導性非線性指標做出過於激進的判斷。
研究方法論革新：呼籲研究社群在報告模型性能時，謹慎挑選和說明使用的指標，尤其對於可能帶來不連續效應的測量標準要反覆驗證，才能確保性能提升解讀的準確性與可重複性。
產業應用的啟示：若「突現能力」是度量幻影而非真實飛躍，那麼產業界對模型擴大規模的投資與策略或需調整，以尋求更具性價比和線性增長的路徑，而非期待「質變」帶來的爆炸性能提升。
後續研究方向的引導：本論文在多任務、多架構、跨模態範疇均驗證其結論，提示研究者在探索 AI 系統性能與能力邊界時，應當注重方法論的嚴謹與指標的多樣性，從而獲得對模型行為更加真實與完整的理解。

綜合而言，Schaeffer 等人通過細膩的數學推導和嚴謹的實證，揭示了大語言模型中所謂突現能力的本質可能是「量測之鏡」。這項成果不僅為 AI 社群在解讀 LLM 性能變化上提供了全新透視，也促使我們對於模型規模和能力演化保持更審慎的態度，為未來 AI 理論與實踐帶來深遠啟發。

論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004

行有餘力則以學文

2026年5月3日星期日

Are Emergent Abilities of Large Language Models a Mirage? — NeurIPS 2023 優秀論文深度解析

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年5月3日 星期日

Are Emergent Abilities of Large Language Models a Mirage? — NeurIPS 2023 優秀論文深度解析

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年5月3日星期日