2026年4月1日 星期三

Are Emergent Abilities of Large Language Models a Mirage? 深度解析

隨著大型語言模型(Large Language Models, LLMs)的迅速發展,越來越多研究指出在模型規模達到某種臨界點後,LLM會突然展現出「湧現能力」(Emergent Abilities)。所謂湧現能力,指的是模型在較小規模時完全不具備的技能,一旦模型規模達到一定程度,這些能力會突然出現且表現顯著提升。對於AI研究者與工程師而言,這種似乎不可預測且急劇轉變的現象,不僅充滿神秘感,同時也引發了關於模型擴展性與能力邊界的深刻討論。

然而,在NeurIPS 2023上由Schaeffer、Miranda與Koyejo所發表的論文《Are Emergent Abilities of Large Language Models a Mirage?》提出了一個截然不同的觀點,並獲得Outstanding Paper獎的肯定。他們質疑所謂「湧現能力」是否真實存在,或者這只是一種錯覺——即研究者選取的性能衡量指標(metric)導致了這種突變的表象,實際上模型的能力隨著規模增長是連續平滑的變化。

研究背景與動機

過去多數文獻認為,隨著模型規模不斷增大,某些任務上的表現不只是線性或平滑提升,反而出現了階梯式的大幅躍進。例如語言推理、數學問題解答、程式碼生成等多項能力據稱只有大模型才擁有。這些能力被形容為「湧現」,因它們好似從無到有的跳躍。這種現象不僅改變了我們對於AI能力邊界的理解,也激勵了許多擴大模型規模的研究方向。

然而,這種湧現能力到底是模型本身行為的根本性質,還是分析指標與統計方式的副產品?該論文團隊指出,當我們從固定輸出數據出發,改變衡量方法,所謂的「急劇閾值性變化」可能消失,表現變得持續且可預測。換句話說,湧現能力可能只是衡量工具的錯覺,而非模型能力本質上的跳躍。

核心方法與創新

本論文的核心創新在於建構了一個簡單的數學模型,系統性解釋為何非線性或不連續的衡量指標會引發「湧現能力」的錯覺。他們提出:

  • 衡量指標的選擇至關重要:非線性、不連續指標,像是某些精度閾值、分類任務的極端準確率,會使模型性能看似出現階梯狀躍升。
  • 反之,線性且連續的衡量指標會呈現平滑、可預測的性能提升曲線。

為了驗證該理論,他們設計了三重實證策略:

  1. 在InstructGPT/GPT-3系列模型上驗證三項預測:挑選宣稱有湧現能力的任務,變換指標,結果顯示所謂湧現現象會根據指標不同而有明顯消失或改變。
  2. 基於BIG-Bench資料的元分析:分析多項湧現能力報告,評估指標變化對湧現特性的影響,再次確認指標依賴性。
  3. 跨多種視覺任務及深度網絡的實驗:應用相同方法在電腦視覺領域製造出新的湧現能力現象,說明這些「能力」極有可能並非模型本質。

主要實驗結果

三個方面的實驗結果互相印證了作者的假設:

  • 在語言模型中,使用不同、尤其是連續度較高的衡量指標時,模型性能隨規模伸展呈現緩慢且連續的升高,沒有明顯的閾值湧現。
  • BIG-Bench的綜合分析顯示,原本被宣稱為湧現的能力,有諸多是因為指標的門檻效應造成離散化評價,而非模型能力本質跳躍。
  • 視覺任務上,指標切換同樣可以創造出「看似突然產生」的能力,強化了這種湧現現象是衡量工具的錯覺論點。

更重要的是,透過更精良的統計方法(例如更大量數據、置信區間評估),所謂湧現的現象亦有所減弱,暗示過去研究在數據分析上的盲點。

對 AI 領域的深遠影響

此項研究挑戰了目前AI社群對於模型擴展與能力跳躍的主流認知。湧現能力若只是衡量方式的一種錯覺,代表我們需要重新審視「模型規模與能力關係」的基礎假設。這將影響未來在模型設計、性能評估、與應用預期的理論建構及實務操作,具體表現在:

  • 模型擴展策略的調整:若能力成長是連續且可預期的,強化模型容量或架構時應更重視緩進式的表現提升,而非期待跳躍式突破。
  • 評估指標的慎選:研究者應選擇連續且具有解釋力的指標,避免非理性門檻導致誤判模型性能,特別是在發掘新能力時。
  • 研究方法論的革新:強調統計嚴謹性和指標敏感度分析,避免過度解讀模型數據中的噪聲或假象。

此外,本論文促使學術界與產業界思考AI模型能力的本質,從「奇異急變」轉向「平滑演進」,更謹慎且理性地看待LMs的未來發展,並激勵對模型內部機制的深入探索,而非僅憑外在行為的突變圖像下結論。

結語

總結來說,Schaeffer等人透過數學建模與廣泛實證,指出「大型語言模型湧現能力」極有可能只是一種「錯覺」,由評估指標所產生的非連續性所致。這份工作不僅為LLM能力的研究開啟了新的視角,也強調AI研究必須在評估方法論上投入更多心力,以達致真正理解與掌控人工智能模型能力的目標。


論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004

Riemannian Score-Based Generative Modelling 深度簡介

在生成模型蓬勃發展的近年,分數基生成模型(Score-based Generative Models,簡稱 SGMs)以其強大的生成能力與優異的表現,成為機器學習領域炙手可熱的研究主題。然而,傳統的 SGMs 主要建立於資料位於歐氏空間(Euclidean space)、即平坦流形的假設之上,這在許多實務場景如機器人學、地球科學或蛋白質結構建模中,資料卻多半天然存在於具有彎曲幾何結構的黎曼流形(Riemannian manifolds)上,造成現有方法的適用性嚴重受限。針對此一挑戰,加拿大多倫多大學的 De Bortoli 等人於 NeurIPS 2022 發表的傑出論文《Riemannian Score-Based Generative Modelling》提出創新架構,成功將分數基生成模型擴展到黎曼流形上,開創了生成建模的一項突破。

研究背景與動機

分數基生成模型是一類透過估計資料分布梯度(資料分數,score function)來構建的生成模型,主要分兩階段:在「加噪」(noising)階段,透過定義一個由真實資料往高斯噪音緩慢轉變的「前向擴散」(forward diffusion process);隨後在「去噪」(denoising)階段,透過學習該擴散過程的時間反向(time reversal)動態,來逐步恢復原始資料分布。此機制使得 SGMs 可以避免直接學習複雜的資料分布,而改由估計分數函數來實現高品質生成。

然而,至今大部分 SGMs 都是在歐氏空間設定中提出與實作,假設底層資料分布是平坦空間的一部分,難以應付資料存在於如球面、超橢球面、特殊正交群 SO(3) 等具非平坦度量(非歐氏)的黎曼流形空間。舉例來說,在地球氣候數據中,資料通常表示為球面上的分布;在機器人學與計算生物學中,蛋白質和機器手臂的位姿可能分布在旋轉群這類流形上。為了突破現有限制,迫切需要將生成模型理論與演算法擴展至一般黎曼流形空間中。

核心方法與創新

本文的核心貢獻在於系統性地將 SGMs 理論架構延展至可帶有彎曲結構的黎曼流形,提出一套名為 Riemannian Score-based Generative Models(RSGMs)的生成模型架構。其創新關鍵可歸納如下:

  • 黎曼流形上的擴散過程定義:作者重新定義了前向擴散過程(forward diffusion process),使其為在黎曼流形上定義的隨機微分方程(Stochastic Differential Equation, SDE)。這條 SDE 模型了從真實資料分布向含極端擾動的平衡分布(通常是参照流形上的標準度量的抑制性噪音分布)緩慢演化的過程,並且尊重流形的幾何結構,例如向量場會自動被限制於切向空間(tangent space)。
  • 黎曼流形上的時間反向模型:基於前向擴散的定義,作者利用黎曼流形上的 Eells-Elworthy-Malliavin 構造,建構了對應時間反向 SDE,並證明其生成動態仍可用流形上的分數函數估計來近似。透過這種時間反向 SDE,能夠從簡單先驗分布重建出複雜流形上的真實資料分布。
  • 分數函數的黎曼估計策略:分數函數是生成模型的關鍵,而黎曼結構使得分數函數必須定義在切向量場上。作者設計了基於對切空間內的梯度與黎曼度量的分數估計方法,確保所學模型可有效捕捉資料在流形上的局部結構與全域幾何性質。
  • 實作與數值方法:針對黎曼 SDE 的離散化與數值近似,作者融合了流形幾何與數值 SDE 解法,設計適用於流形的數值模擬器,並提出基於黑盒分數估計器(score network)與流形投影技巧的演算法,使得方法可直接應用於各類典型流形場景,如球面、超橢球面與旋轉群。

實驗結果精要

作者在多個典型的黎曼流形資料集上做廣泛實驗,證明了 RSGM 方法的有效性與適應性:

  • 球面資料上的氣候數據模擬:透過地球表面氣候相關數據分布(如風速向量與溫度場分布)做生成實驗,RSGM 能夠成功模擬出符合物理結構與統計特性的球面環境資料,相較於以歐氏方法處理轉換數據,生成品質大幅提升,且保持了流形固有的連續性與可微性結構。
  • 超橢球面與旋轉群 SO(3) 上的合成實驗:在造假實驗中,RSGM 可以精確地復原在高維流形如超橢球面上分布的資料,並在旋轉群 SO(3) 上處理機器人手臂姿態資料,展現該方法在機器人學與計算機視覺領域的潛力。
  • 與既有方法的比較:相較於傳統歐氏 SGMs 的簡易投影方法,RSGM 明顯在生成的樣本多樣性與逼真度方面優勢顯著,同時維持了穩定的訓練過程,印證了黎曼流形結構對生成性能的提升效果。

對 AI 領域的深遠影響

本篇論文不僅解決了以往 SGMs 在流形資料生成上的理論與實踐瓶頸,更在生成模型的幾何學基礎上開啟了新方向。其影響和應用潛力包括:

  • 拓展生成模型的應用範圍:過去生成技術多侷限於歐式空間,本文拓展到黎曼流形,使得在量子物理分子結構建模、腦神經影像形狀分析、機器人學姿態預測與動作生成、天文與氣象數據分析等多種領域,皆能使用更自然且具結構適應性的生成模型。
  • 促進幾何深度學習與生成模型整合:本文理清了生成過程中如何有效結合流形幾何與隨機分析,對深化幾何深度學習研究具有指標意義,尤其在如何設計流形上高效可微神經網路與動態系統模型方面具啟發性。
  • 推動流形結構資料的統計建模革命:未來大規模複雜結構資料如蛋白質序列與三維構型、交通網絡與社會網路的幾何特性分析,將可藉由 RSGM 這類流形生成模型,實現更精確且具解釋性的統計推斷。

總結而言,De Bortoli 等人提出的 Riemannian Score-Based Generative Modelling,不僅是將 SGMs 理論從歐氏空間推廣到更廣泛的幾何空間的里程碑,更吹響了生成模型與數學幾何深度融合的號角,具有重塑生成建模未來發展格局的潛力。


論文資訊
📄 Riemannian Score-Based Generative Modelling
👥 De Bortoli, Mathieu, Hutchinson, Thornton, Teh, Doucet
🏆 NeurIPS 2022 · Outstanding Paper
🔗 arxiv.org/abs/2202.02763