2026年4月1日 星期三

Are Emergent Abilities of Large Language Models a Mirage? 深度解析

隨著大型語言模型(Large Language Models, LLMs)的迅速發展,越來越多研究指出在模型規模達到某種臨界點後,LLM會突然展現出「湧現能力」(Emergent Abilities)。所謂湧現能力,指的是模型在較小規模時完全不具備的技能,一旦模型規模達到一定程度,這些能力會突然出現且表現顯著提升。對於AI研究者與工程師而言,這種似乎不可預測且急劇轉變的現象,不僅充滿神秘感,同時也引發了關於模型擴展性與能力邊界的深刻討論。

然而,在NeurIPS 2023上由Schaeffer、Miranda與Koyejo所發表的論文《Are Emergent Abilities of Large Language Models a Mirage?》提出了一個截然不同的觀點,並獲得Outstanding Paper獎的肯定。他們質疑所謂「湧現能力」是否真實存在,或者這只是一種錯覺——即研究者選取的性能衡量指標(metric)導致了這種突變的表象,實際上模型的能力隨著規模增長是連續平滑的變化。

研究背景與動機

過去多數文獻認為,隨著模型規模不斷增大,某些任務上的表現不只是線性或平滑提升,反而出現了階梯式的大幅躍進。例如語言推理、數學問題解答、程式碼生成等多項能力據稱只有大模型才擁有。這些能力被形容為「湧現」,因它們好似從無到有的跳躍。這種現象不僅改變了我們對於AI能力邊界的理解,也激勵了許多擴大模型規模的研究方向。

然而,這種湧現能力到底是模型本身行為的根本性質,還是分析指標與統計方式的副產品?該論文團隊指出,當我們從固定輸出數據出發,改變衡量方法,所謂的「急劇閾值性變化」可能消失,表現變得持續且可預測。換句話說,湧現能力可能只是衡量工具的錯覺,而非模型能力本質上的跳躍。

核心方法與創新

本論文的核心創新在於建構了一個簡單的數學模型,系統性解釋為何非線性或不連續的衡量指標會引發「湧現能力」的錯覺。他們提出:

  • 衡量指標的選擇至關重要:非線性、不連續指標,像是某些精度閾值、分類任務的極端準確率,會使模型性能看似出現階梯狀躍升。
  • 反之,線性且連續的衡量指標會呈現平滑、可預測的性能提升曲線。

為了驗證該理論,他們設計了三重實證策略:

  1. 在InstructGPT/GPT-3系列模型上驗證三項預測:挑選宣稱有湧現能力的任務,變換指標,結果顯示所謂湧現現象會根據指標不同而有明顯消失或改變。
  2. 基於BIG-Bench資料的元分析:分析多項湧現能力報告,評估指標變化對湧現特性的影響,再次確認指標依賴性。
  3. 跨多種視覺任務及深度網絡的實驗:應用相同方法在電腦視覺領域製造出新的湧現能力現象,說明這些「能力」極有可能並非模型本質。

主要實驗結果

三個方面的實驗結果互相印證了作者的假設:

  • 在語言模型中,使用不同、尤其是連續度較高的衡量指標時,模型性能隨規模伸展呈現緩慢且連續的升高,沒有明顯的閾值湧現。
  • BIG-Bench的綜合分析顯示,原本被宣稱為湧現的能力,有諸多是因為指標的門檻效應造成離散化評價,而非模型能力本質跳躍。
  • 視覺任務上,指標切換同樣可以創造出「看似突然產生」的能力,強化了這種湧現現象是衡量工具的錯覺論點。

更重要的是,透過更精良的統計方法(例如更大量數據、置信區間評估),所謂湧現的現象亦有所減弱,暗示過去研究在數據分析上的盲點。

對 AI 領域的深遠影響

此項研究挑戰了目前AI社群對於模型擴展與能力跳躍的主流認知。湧現能力若只是衡量方式的一種錯覺,代表我們需要重新審視「模型規模與能力關係」的基礎假設。這將影響未來在模型設計、性能評估、與應用預期的理論建構及實務操作,具體表現在:

  • 模型擴展策略的調整:若能力成長是連續且可預期的,強化模型容量或架構時應更重視緩進式的表現提升,而非期待跳躍式突破。
  • 評估指標的慎選:研究者應選擇連續且具有解釋力的指標,避免非理性門檻導致誤判模型性能,特別是在發掘新能力時。
  • 研究方法論的革新:強調統計嚴謹性和指標敏感度分析,避免過度解讀模型數據中的噪聲或假象。

此外,本論文促使學術界與產業界思考AI模型能力的本質,從「奇異急變」轉向「平滑演進」,更謹慎且理性地看待LMs的未來發展,並激勵對模型內部機制的深入探索,而非僅憑外在行為的突變圖像下結論。

結語

總結來說,Schaeffer等人透過數學建模與廣泛實證,指出「大型語言模型湧現能力」極有可能只是一種「錯覺」,由評估指標所產生的非連續性所致。這份工作不僅為LLM能力的研究開啟了新的視角,也強調AI研究必須在評估方法論上投入更多心力,以達致真正理解與掌控人工智能模型能力的目標。


論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004

沒有留言:

張貼留言