2026年4月21日 星期二

Are Emergent Abilities of Large Language Models a Mirage? 深度解析

近年來,隨著大型語言模型(Large Language Models, LLMs)如 GPT-3、InstructGPT 的崛起,研究者在模型能力隨參數量級增大所展現出的「突然現象」(emergent abilities)現象引發廣泛關注。這些 emergent abilities 指的是在模型規模小時未曾觀察見的能力,當模型超過某臨界尺寸後,能力突然「爆發」呈現非線性飛躍,令人稱奇。然而,這種突發且難以預測的能力是否真實存在?還是研究者選擇的評量指標與分析手法導致「假象」?來自 Schaeffer、Miranda、Koyejo 三位作者在 NeurIPS 2023 發表的論文《Are Emergent Abilities of Large Language Models a Mirage?》便釐清了此疑惑,並獲得傑出論文獎(Outstanding Paper)肯定。

研究背景與動機

隨著深度學習模型參數爆炸性增長,研究社群驚訝地發現,在某些任務上,當模型規模增大到某個臨界點後,模型的表現會出現非線性跳躍,也就是所謂的 emergent abilities。這些能力不只包括理解複雜語言結構、推理能力還有多步驟推論等,且這種跳躍出乎意料且帶來革命性進展,因此對於理解 AI 規模擴展與能力獲得的本質至關重要。

然而,這些發現也伴隨疑問:這種突變是否真的是大模型本質行為的「固有特性」?還是評量這些能力時使用的指標(metrics)本身存在非線性、不連續,使得表現看起來「跳躍」?換句話說,是否只是我們用放大鏡看問題的角度錯置,實際能力是連續、平滑增長,只是在錯誤的測量尺度上呈現假象?

本論文的動機即為重新審視 emergent abilities 的本質,企圖用更嚴謹數學模型與統計檢驗、系統化實驗,探究「技能突變」是否是模型規模的固有現象,或是評量指標的錯覺。

核心方法與創新

本論文的核心創新在於提出一個簡單但有力的理論框架與數學模型,用以解析為何不同的評分指標會產生是否出現快速跳躍的錯覺:

  • 非線性與不連續指標導致的假象:作者舉例說明,當使用非線性或斷點不連續的評分標準時,即使模型能力平滑增長,在該指標上仍會呈現「突變」現象,例如閾值函數(Latent abilities
  • 線性與連續指標還原真實態勢:相反地,若採用線性、連續且平滑的指標量化模型表現,能力隨模型規模的成長將呈現可預測且連續、平滑的變化,沒有明顯跳躍。

這種理論觀點突破了既有 emergent abilities 研究只看單一指標的盲點,激發了對於「指標選擇」對研究結論巨大影響的深刻反思。

此外,作者以三種互補手段驗證此理論:

  1. InstructGPT/GPT-3 任務分析 :挑選過去被宣稱出現 emergent abilities 的任務及指標,實驗不同指標如何影響是否看到突變效果,從數據直接測試理論預測。
  2. BIG-Bench 元分析 :綜合分析這個大規模基準測試中的 emergent abilities 報告,檢驗指標性質與跳躍現象的關聯性,進行第二層次統計檢驗。
  3. 跨領域視覺任務模擬 :擴展至視覺領域多種深度網路,以非語言任務驗證理論概念的普適性,展示透過巧妙的指標選擇,甚至能誘發先前未見過的 emergent 情形。

主要實驗結果

這三組實驗清楚支撐作者提出的理論框架:

  • 指標決定 emergent optical illusion(視覺錯覺):不少聲稱模型能力忽然出現的結果,在替換評分指標為連續型評分後,突變現象消失,表現變得平滑。
  • 統計強化帶走 emergent 虛影:改進統計估計方式及採樣方法後,原始報告中 emergent 能力的顯著性大幅下降,顯示原先的突變現象可能因統計噪聲與資料不足而被誇大。
  • 跨領域驗證普適性:透過選擇非線性評分標準,在視覺領域也能高速製造新的 emergent-like 現象,證明這不是語言模型「特有」的神秘能力,而是評分指標問題。

實驗結果強而有力地指出,過往對 emergent abilities 的風潮部分建立在錯誤指標的「幻覺」上,而非模型本質行為的變化。儘管模型性能確實隨規模成長提升,但該成長「質的飛躍」需要重新審視。

對 AI 領域的深遠影響

這篇論文對 AI 研究社群意義深重,不僅在於釐清了一個熱門現象的真相,更帶來以下重要啟示:

  1. 理性檢視 emergent abilities 概念 :模型能力激增的現象應重新審慎定義與鑑別,避免因評量標準選擇不當而過度誇張與神話化,促使研究者以更嚴謹、科學的態度解讀結果。
  2. 正視指標選擇的重要性 :凸顯了指標(metrics)的設計與選取是 AI 能力研究核心環節,深刻影響結論導向。未來在能力測評標準的建立上,應倡導連續、線性、可解釋性強的指標,避免非必要的非線性忽然跳躍干擾判斷。
  3. 推動更全面的能力分析框架 :激勵社群發展更精細、定量、跨域的能力分析方法,並以多指標、多任務、多模型架構驗證觀察的普適性,避免單一觀察視角盲點。
  4. 深度理解模型規模與能力的關係 :此文促使研究者不應簡化為「規模越大,能力跨越閾值突變」,而是把焦點放在能力如何穩健、可預測、連續成長,深入挖掘能力獲得的本質機制。

總結來說,Schaeffer 等人的研究是一面鏡子,映照了 AI 研究中容易被忽略的「量度陷阱」。透過數學建模與廣泛嚴謹的實驗驗證,他們有效消解了 emergent abilities 神秘且突兀的迷思,為未來 AI 能力研究提供了更加堅實與清晰的理論及方法基礎,堪稱近期 AI 頂會的一大突破。


論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004

沒有留言:

張貼留言