行有餘力則以學文: Are Emergent Abilities of Large Language Models a Mirage? 深度解析與解說

2026年4月9日星期四

Are Emergent Abilities of Large Language Models a Mirage? 深度解析與解說

近年來大型語言模型（Large Language Models, LLMs）因其規模擴大後展現了「突現能力」（Emergent Abilities），成為人工智慧研究領域的熱門議題。這些突現能力指的是某些能力在模型規模較小時完全沒有呈現，到了較大規模時卻突然顯現並且往往表現得相當強大，且呈現出非線性、不可預測的特性。諸如 GPT 系列、InstructGPT 等模型的成功在某程度上也得力於這些能力的激發，引發了學界和產業界對於「模型規模與能力關係」的廣泛關注和深入探討。

然而，來自 Schaeffer、Miranda 與 Koyejo 等人在 NeurIPS 2023 發表並榮獲 Outstanding Paper 的論文《Are Emergent Abilities of Large Language Models a Mirage?》挑戰了現有對突現能力的普遍認知。作者提出關鍵問題：「大型語言模型出現的突現能力，是否真的是模型內在行為的根本式跳躍？還是僅僅由於我們選擇的評估指標造成的假象？」

研究背景與動機

過去的研究報告顯示，LLM 在達到某個規模門檻後，性能曲線會從平滑的增長變成陡峭的躍升，示意模型在能力上忽然「跳躍」出新境界，這種現象被稱為「Emergent Abilities」。此特性通常被視為提升模型規模的動力之一，也暗示了模型結構或訓練動態可能在某階段進入了結構性質的改變。

然而，Authors從計量學（Metrics）的視角提出疑問：或許所謂的「突現」只是一種錯覺，起因於某些非線性或門檻化的評估指標，這些指標將模型的性能表現「放大」得看似突然跨越閾值。若將指標改用更線性、連續的版本，所謂的突現現象是否依然存在？如果不存在，代表我們對巨型模型能力本質的理解可能需要重新審視。

核心方法與創新

本論文的核心貢獻在於從理論建模與實證對照兩個面向，系統探討指標選擇如何影響「突現能力」的表現：

數學模型架構：作者以簡化的數學模型呈現不同條件下評估指標（Metric）的行為。結果顯示，若評估指標本身為非連續或非線性函數，模型性能隨規模平滑變化的真實行為會被扭曲成「突現」的假象。
實驗驗證：針對已知出現突現能力的任務，作者設計三項具體預測，並使用 InstructGPT/GPT-3 模型族群進行實證檢驗。結果表明，改用線性或更自然的指標後，突現現象大幅減弱甚至不復存在。
大規模元分析：透過對 BIG-Bench 任務集的元分析，作者驗證了指標選擇對突現現象的普遍影響，進一步支持其論點。
跨模態擴展實驗：不只語言模型，作者將方法延伸至視覺任務和多種深度學習網路，展示只要更換評估指標，許多本來被認為是「突現能力」的現象同樣可以「創造」出來，凸顯其指標依賴性。

主要實驗結果

具體而言，論文提出並驗證以下重要發現與結論：

使用非線性或門檻型指標（例如準確率或特定評分標準），模型的性能曲線容易出現「陡峭躍升」形態，誘發突現能力的假象。
改用連續且線性的評估方式（例如損失函數的直接輸出、細緻尺度的分數），模型能力隨規模增加展現更平滑且可預測的增長。
在元分析中，BIG-Bench 中許多被標榜為突現能力的案例，透過指標重新定義後其突發的特徵大幅下降，表示突現現象可能並非模型的本質特性。
換用不同評估指標在視覺任務中也能「合成」出類似突現現象，加強了指標對突現能力觀察結果的操縱力。

對 AI 領域的深遠影響

本論文的發現對當前及未來 AI 研究具有重大的啟發與實務意義：

重新審視「突現能力」的理論基礎：長期以來突現能力被視為提升模型規模的重要驅動之一，也引導許多架構設計與訓練策略。本文顯示這種看似驚人的能力可能只是「評估幻象」，使研究者調整對規模-能力關係的解讀，強調細緻且適當指標的重要性。
推動更謹慎的評估標準設計：AI 系統的能力評估若過度依賴離散化、非連續或高度非線性的指標，容易誤導使用者及研究者形成錯誤結論。未來在評估大型模型時需整合多元且連續的視角，促進更全面且客觀的能力評估。
促使模型能力研究走向理性化和可解釋性：模型擴大是否帶來本質能力躍升的問題，是理解 AI 崩潰臨界點與突破關鍵的核心。該論文所提出的視角可視為呼籲，促使社群更精確地鑑別模型真正變化的本質特點，而非被表象數據所蒙蔽。
跨模態與跨任務的廣泛啟示：不只語言模型，視覺、強化學習等領域均可借鑑此結果來檢視、驗證突現能力的真實性，減少過度樂觀的現象誇大，促成本質能力的扎實推進。

綜合來說，Schaeffer 等人的這篇論文以嚴謹的數學分析與廣泛實證驗證，挑戰了「大型語言模型必然會出現突現能力」的流行印象，並提出這類現象可能更多是評估框架所致的幻象。這項發現對 AI 社群在理解模型規模、能力演化以及性能評估中都提供了非常重要的反思視角，堪稱推動人工智慧研究更加理性且深刻的里程碑。

論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004