行有餘力則以學文: Are Emergent Abilities of Large Language Models a Mirage? 深度解讀

2026年4月15日星期三

Are Emergent Abilities of Large Language Models a Mirage? 深度解讀

近年來，大規模語言模型（Large Language Models, LLMs）在多項自然語言處理任務上展現出驚人的性能，甚至出現「突現能力」（Emergent Abilities）這一現象。所謂突現能力，是指模型在某個規模閾值後，性能突然大幅提升，彷彿具備了之前小型模型不具備的新能力。這種「突然且不可預見」的現象引起學術界與產業界極大關注，大家紛紛推測這是模型結構與訓練過程中組織起來的新質特性，甚至可能暗示了類似人類智慧的階段性質變。

本篇NeurIPS 2023榮獲Outstanding Paper的論文《Are Emergent Abilities of Large Language Models a Mirage?》，由Schaeffer、Miranda、Koyejo三位作者共同完成，針對「突現能力」提出了深刻的質疑與另一種全新視角。

研究背景與動機

隨著GPT-3、InstructGPT及其他大型語言模型的問世，研究界發現許多任務的性能在隨模型參數數量增長時並非線性改進，而是會出現某種「閾值跳躍式」增長，研判這是模型「產生新能力」的明顯跡象。這種被稱為「突現」的表現不僅讓人類感到驚艷，也激起了理論上對模型認知結構的猜測。

然而，這些結論大多基於不同研究所設計的任務、指標及分析手法。作者注意到「突現能力」的定義多與性能提升曲線分析相關，而這種指標的選擇本身可能導致曲線看似突然跳變的錯覺。因此，本研究希望反思：這些突現現象是否真正反映了模型行為的根本變化？還是研究者在評估方法上造成的錯覺？

核心方法與創新

論文的最大創新點在於提出「指標選擇效應」的理論架構，指出突現能力的「突然性」與「不可預測性」或許並非模型本身的真實特性，而是由於使用了非線性、不連續或非平滑的性能指標（例如分類正確率的跳變）所致。換句話說，在某些任務上，性能曲線因評估指標的離散性或非線性轉換，會呈現出明顯的突現效應；反之，若以線性、連續或更合適的平滑指標量化，模型性能隨規模的增長變化將會是平滑且可預測的。

他們首先建構了一個數學模型，系統化描述性能指標如何影響突現假象的產生。隨後，以三種互補的實驗方法驗證此理論：

具體模型測試：以InstructGPT/GPT-3家族為對象，針對已聲稱存在突現能力的任務，設計了三種理論預測並實測實驗，證明不同指標選擇會影響是否出現突現現象；
跨任務元分析：利用BIG-Bench這個涵蓋多種任務的基準，分析其中突現能力的案例，對指標選擇的兩個理論預測進行驗證，結果一致支持指標本身導致假象的可能性；
擴展至視覺任務：作者突破語言模型範疇，針對多種深度視覺模型和任務，選擇特定評估指標人為製造出先前未見的「突現能力」，進一步證明突現現象並非AI擴大模型規模獨有，而是評估方法導致的幻象。

主要實驗結果

透過上述三個層面的證據，作者發現：

突現能有效消失或大幅減弱，當以連續性更佳的性能指標衡量時，性能曲線經常呈現較平滑的增長，沒有明顯的跳變區域；
多數聲稱的大規模模型新能力依賴於研究者選擇的非線性或斷續指標來評估，這種指標本身帶有階段性出現的性質，因此容易誤導成能力的突然爆發；
若以統計方法增強抽樣數量及精度，所謂突現的峰值也會逐漸平滑，呈現連續遞增的趨勢；
陣營外的多模態視覺模型同樣存在「突現能力」，透過指標調整可以刻意製造或消除突現現象，凸顯其並非純模型本質的特徵。

對 AI 領域的深遠影響

本論文的發現挑戰了近年來AI社群對大型模型「突現能力」的普遍共識，並帶來多重深層啟示：

重新思考模型能力的評估方式：性能指標的選擇不僅影響結果解讀，還可能誤導對模型智慧質變的認知。未來研究必須更謹慎挑選指標，甚至多維指標交叉驗證，避免誤判能力突破與特異性現象。
模型設計與規模擴增的預測難題：突現能力曾被視為無法預測的峰值，但若從平滑漸增視角來看，模型性能隨規模變化會更容易建模與理解，促進理論模型與結構分析的發展。
對AI安全與監管的影響：突現能力的不可預期性常被視為AI風險增強的來源，本論文指出這種不可預見或突發好的現象可能來自指標誤差，提醒監管者與設計者在評估風險時需兼顧技術細節，避免過度驚嚇或誤判危機。
促進學界標準化與透明度：論文呼籲針對突現能力的報告應明確呈現指標的性質與適用性，鼓勵更嚴謹的統計分析與多角度評估，推動AI技術報告走向更科學與客觀的方向。

整體而言，Schaeffer等人這篇論文不僅提供了一個新的理論框架，說明了大型語言模型所謂突現能力的本質問題，更促使AI領域重新反思過去在模型能力評估上的偏誤與陷阱。對於希望深入理解大型模型內在運作機制的工程師和研究人員而言，本文是不可多得的理論與實證寶庫，提醒我們：在驚嘆人工智慧飛速進步的同時，也別忘了「量測」本身的局限與誤差如何形塑我們對AI「智能」的想像。

論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004

行有餘力則以學文

2026年4月15日星期三

Are Emergent Abilities of Large Language Models a Mirage? 深度解讀

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年4月15日 星期三

Are Emergent Abilities of Large Language Models a Mirage? 深度解讀

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年4月15日星期三