行有餘力則以學文: Are Emergent Abilities of Large Language Models a Mirage? 深度解析

2026年4月3日星期五

Are Emergent Abilities of Large Language Models a Mirage? 深度解析

近年來大型語言模型（Large Language Models, LLMs）在自然語言處理領域取得驚人成果，其中一個熱門話題是「突現能力」（Emergent Abilities）的觀察。這些能力指的是當模型規模達到某種臨界點後，才突然出現的技能或行為，且在較小規模模型中幾乎無跡可尋。例如，GPT-3 在特定任務上的表現突然躍升，超出簡單線性外推的預期，使得研究者們認為這種突現現象可能是一種模型內在的質變。本論文《Are Emergent Abilities of Large Language Models a Mirage?》由 Schaeffer, Miranda, Koyejo 於 NeurIPS 2023 發表，並榮獲 Outstanding Paper 獎項，挑戰了突現能力真實存在的普遍看法，提出了全新的解讀視角，對 AI 領域具有深遠影響。

研究背景與動機

傳統智慧認為，隨著模型規模的增加，模型的能力會以較為平滑、可預期的方式增強，這是許多模型設計和訓練策略背後的假設。然而，近年來多項研究呈現出模型在某些任務上的「階段轉變」，即性能大幅提升且看似突如其來，這促使「突現能力」概念廣為流行。此現象吸引了包括工程師與研究者深度探索：這些能力是否真的是模型自我內部形成的新技能？或者只是分析方法或評估指標選擇上的「錯覺」？

本論文的主要動機即是檢驗所謂突現能力是否為模型本質行為的變化，抑或是透過不同指標（metrics）解析模型輸出時產生的誤判。作者認為，過往研究多半採用非線性或不連續的度量指標來評估模型性能，這類指標可能創造出「性能忽然躍升」的假象，破壞了對模型能力隨規模變化的連續理解。

核心方法與創新

本論文的核心貢獻在於提出一個簡單的數學模型，解釋突現現象從何而來。作者指出，如果用非線性或不連續的評量尺度來分析模型輸出，某些得分曲線會呈現出「跳躍」或「突然上升」，但如果用線性或連續的指標度量，則能力增長表現出平滑且可預測的趨勢。換言之，所謂「突現能力」其實很大程度是指標選擇的產物，而非模型行為內在的質變。

具體來說，論文設計了三方面的實證驗證：

選取 InstructGPT/GPT-3 系列模型與其公布的突現能力任務，對於相同模型輸出，嘗試不同指標來驗證性能曲線的變化，結果顯示非線性指標確實導致所謂「突現」現象，而線性指標反映的是平滑改進。
結合 BIG-Bench 基準數據庫進行元分析，分析該數據庫中多個突現能力的測試結果，確認指標選擇如何影響性能展現，進一步強化指標本身對突現現象的重要性。
將該概念拓展至視覺領域和多種深度學習模型，精心挑選指標，驚人地發現許多之前未曾注意的「突現」現象也會隨著指標變化而消失，說明這並非語言模型專屬的現象，而是一種更普遍的數據詮釋問題。

這樣的三管齊下方法，從數學建模、語言模型實驗、再到跨模態的視覺模型，都提供了強而有力的佐證。

主要實驗結果

首先，在 InstructGPT/GPT-3 任務中，作者重新定義評分指標，將原本被認為會產生突現能力的任務用更平滑的連續度量替代，結果性能曲線不再有明顯的跳躍，而是平滑提升，表明突現特性遇強指標調整即消失。

其次，在 BIG-Bench 中大規模分析表明，不同的指標選擇大幅影響「突現能力」的判斷，簡單地說，非連續指標往往讓模型能力曲線看起來有戲劇化的飛越，而連續指標則呈現連續演進。這說明過去許多突現現象可能是誤解或錯覺。

最後在視覺任務中，作者利用類似分析方法觸發了原本未被發現的突現行為，卻發現它們同樣是受到評價指標選擇控制，說明突現能力並非語言模型規模的獨特產物，而是與「如何量化能力」緊密相關。

對 AI 領域的深遠影響

本論文挑戰了 AI 社群一直以來對大型模型能力躍升的慣有解讀，強調對「突現能力」這一概念的謹慎解讀與反思。其帶來的重要啟示包括：

指標選擇的重要性：模型性能評估指標應精心設計與選定，避免因評測尺度非連續或非線性導致的錯覺，特別在判斷模型能力是否「突現」時。
對模型行為更連續的理解：該研究促使我們超越簡單的「能力忽然開啟」迷思，理解大規模模型能力隨規模逐步提升的本質，反映模型訓練過程整體改進。
跨領域的啟發：不只是語言模型，其他領域如視覺模型的能力變化也應受到相同的量化標準考察，避免陷入刻板印象或誤判模型表現的陷阱。
促進模型理論研究：這份工作呼籲建立更嚴謹的理論模型來解釋模型能力隨規模與訓練變化的連續性，推動 AI 理論與實踐間的良性互動。

總結而言，Schaeffer 等人的工作在大型語言模型突現能力的研究中投下革命性的一顆震撼彈，提醒社群审视分析工具的設計，不只是盯著模型輸出本身，而是要關注如何量化並解讀這些輸出。此發現有助於形成對大型 AI 模型能力成長更科學、精確的理解，為未來大規模人工智慧系統的可解釋性與評估標準制定指明了新方向。

論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004