行有餘力則以學文: Are Emergent Abilities of Large Language Models a Mirage? 詳解：探索大型語言模型所謂「臨界能力」的真相

2026年3月20日星期五

Are Emergent Abilities of Large Language Models a Mirage? 詳解：探索大型語言模型所謂「臨界能力」的真相

隨著大型語言模型（Large Language Models, LLMs）的迅速發展，學術界與業界開始注意到一個有趣且具有重大意義的現象：模型規模增加時，某些能力似乎非線性地「突然」出現，這種現象被稱為「臨界能力」（Emergent Abilities）。對於 AI 研究者而言，臨界能力引發了極大興趣，因為它不僅代表模型能力的飛躍提升，也加深我們對模型內部複雜性與能力分布的理解。然而，來自 Schaeffer, Miranda 與 Koyejo 於 2023 年 NeurIPS 發表且獲得 Outstanding Paper 的論文《Are Emergent Abilities of Large Language Models a Mirage?》則提出了一個耐人尋味的觀點：這些臨界能力或許只是一種「幻象」——一種由度量指標的選擇與統計分析方式引起的視覺效果，而不是真正模型能力的本質飛躍。

研究背景與動機

在過去的幾年，隨著 GPT 系列以及其他大型語言模型的推陳出新，研究者們發現某些任務上模型性能的提升並非平滑遞增，而是呈現一個從「幾乎無法完成任務」到「高效完成任務」的「跳躍」態勢，彷彿模型在某一規模門檻後「突然開竅」。這類現象被認為是大模型突破性進步的重要證據，也使得模型規模成為研究焦點。臨界能力的兩大特徵分別是：（1）突變性，即在模型規模遞增過程中的表現突變呈現出鋒利、幾乎瞬間的轉變；（2）不可預測性，這些臨界點往往難以提前預料，且隨著不同模型和任務尺度展現出高度多樣性。

然而，越來越多的研究與觀察引發了疑問：這些看似獨特的臨界現象，是否確實反映了模型的本質變化？還是其實是一種「數據遊戲」或「指標陷阱」，由選擇的評估方式與不連續度量導致的視覺假象？Schaeffer 等人便基於此疑問展開本論文的探討，試圖從數學與實證層面徹底剖析臨界能力的本質。

核心方法與創新

本論文核心假設是：所謂「臨界能力」的出現，可能是由指標的非線性或不連續性導致，而非模型能力本身的根本飛躍。換句話說，當研究者使用某些度量標準（例如非線性分數、不連續的對錯判斷指標或閾值型度量）來評估模型表現時，模型性能曲線呈現出非連續甚至突變的形態，從而產生「能力跳躍」的錯覺。

為此，論文提出了一個簡化的數學模型來說明這項假設，探討線性/連續度量和非線性/不連續度量對模型性能曲線的截然不同影響。該模型表明：如果度量是連續且線性的，則即使模型能力確實在隨著規模改進，性能曲線依然平滑且預測性高；反之，不連續、閾值型的指標會誇大看似「突然」發生的能力變化。

創新之處還包含三條互補實驗路線：

在 InstructGPT 和 GPT-3 上驗證指標選擇效果：針對已報告有臨界能力的任務，他們設計實驗來測試不同指標如何影響「能力跳躍」的顯現，實驗結果成功驗證了數學模型的預測。
透過 BIG-Bench 的元分析：分析公開大型基準測試中報告的臨界能力案例，檢視指標使用與統計處理對能力識別的影響，發現類似的非連續指標易造成誤解。
擴展到視覺任務與多模型範疇：設計特定指標在影像分類與物體檢測中營造「新型臨界能力」，證明此現象並非語言模型獨有，且極大仰賴度量法設計。

主要實驗結果

經由上述多角度實證，論文得出幾項關鍵結論：

當使用連續且線性的性能指標（如準確率、平均分數），模型性能隨規模平滑提升，臨界跳躍現象明顯消失或變得模糊；
非線性、不連續的指標（如成功率閾值、特定執行門檻）會放大模型能力的跳變，往往誇大了能力「忽然出現」的現象；
在 BIG-Bench 元分析中，大部分臨界能力的案例都可被不同指標選擇重新詮釋或解釋，其「突變」屬性是指標選擇的產物；
類似的臨界能力現象可被製造出來，透過選擇性數據指標與閾值設置，且不限於語言，也存在於影像模型與其他深度神經網絡中；
統計樣本大小與數據噪聲亦影響臨界現象的顯著性，較精細統計手段能弱化或消除所謂的「突變」。

對 AI 領域的深遠影響

這篇論文在 AI 領域內部引起了廣泛的討論，尤其關於如何解讀大規模模型的性能提升與技術突破。其深遠意義主要體現在以下幾個層面：

1. 重塑臨界能力的認知模型

論文挑戰了既有臨界能力解釋，強調數據評估指標與統計方法的重要性，使我們重新審視「能力突變」現象是否真的是模型內部機制的自然產物，還是外部分析視角的產物。這有助於避免誤讀模型進步過度誇張，推動更科學嚴謹的模型性能解釋。

2. 指標設計與報告標準的提昇

論文強烈提醒研究者與產業工程師在設計性能指標與結果呈現時，務必考量指標的数學性質（連續性、非線性）對結論的影響。合適且穩健的指標設計將成為日後大型模型能力評價的基本要求，避免誤導決策。

3. 鼓勵多角度、多指標評估方法

除了單一指標外，結合線性與非線性度量、多樣化數據集合和更嚴謹的統計分析被視為必要，提升能力察覺的準確度和普適性，有助於構築全面且穩固的模型能力譜系。

4. 擴展對其他 AI 領域的啟示

除了自然語言處理，本論文也在視覺領域展開驗證，展現「臨界能力」可能是神經網絡架構與任務評價中普遍存在的認知偏差。未來在自動駕駛、醫療影像、機器視覺等場景對能力跳躍的認知，均需更謹慎解讀。

5. 指導未來模型擴展與微調策略

若「突變」能力多由評價方法塑造，而非模型本質飛躍，則推動模型微調、調參與擴展時，策略將更加關注持續提升性能指標的平滑性與穩定性，避免誤判模型能力路徑，提升開發穩定性。

總結

Schaeffer 等人於 NeurIPS 2023 發表的《Are Emergent Abilities of Large Language Models a Mirage?》為 AI 研究界提供了一個重要的反思視角：我們以往對大型語言模型「臨界能力」的驚奇與讚嘆，或許在某種程度上是由「指標設計」所造成的視覺幻象。透過嚴謹的數學模型建立、實證分析與跨領域驗證，本論文不僅豐富了我們對模型能力尺度擴展的理解方式，也推動了 AI 性能評估方法論的革新。

對於正在研發下一代大型語言模型與多模態 AI 的工程師與研究生來說，此論文提醒我們在面對模型能力「爆發性進展」時需要保持慎思，注重評價指標的嚴謹設計與多面向驗證，以防誤判模型能力基礎，為 AI 領域的長遠與穩健發展奠定基石。

論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004

行有餘力則以學文

2026年3月20日星期五

Are Emergent Abilities of Large Language Models a Mirage? 詳解：探索大型語言模型所謂「臨界能力」的真相

研究背景與動機

核心方法與創新

主要實驗結果