2026年4月1日 星期三

Are Emergent Abilities of Large Language Models a Mirage? 深度解析

隨著大型語言模型(Large Language Models, LLMs)的迅速發展,越來越多研究指出在模型規模達到某種臨界點後,LLM會突然展現出「湧現能力」(Emergent Abilities)。所謂湧現能力,指的是模型在較小規模時完全不具備的技能,一旦模型規模達到一定程度,這些能力會突然出現且表現顯著提升。對於AI研究者與工程師而言,這種似乎不可預測且急劇轉變的現象,不僅充滿神秘感,同時也引發了關於模型擴展性與能力邊界的深刻討論。

然而,在NeurIPS 2023上由Schaeffer、Miranda與Koyejo所發表的論文《Are Emergent Abilities of Large Language Models a Mirage?》提出了一個截然不同的觀點,並獲得Outstanding Paper獎的肯定。他們質疑所謂「湧現能力」是否真實存在,或者這只是一種錯覺——即研究者選取的性能衡量指標(metric)導致了這種突變的表象,實際上模型的能力隨著規模增長是連續平滑的變化。

研究背景與動機

過去多數文獻認為,隨著模型規模不斷增大,某些任務上的表現不只是線性或平滑提升,反而出現了階梯式的大幅躍進。例如語言推理、數學問題解答、程式碼生成等多項能力據稱只有大模型才擁有。這些能力被形容為「湧現」,因它們好似從無到有的跳躍。這種現象不僅改變了我們對於AI能力邊界的理解,也激勵了許多擴大模型規模的研究方向。

然而,這種湧現能力到底是模型本身行為的根本性質,還是分析指標與統計方式的副產品?該論文團隊指出,當我們從固定輸出數據出發,改變衡量方法,所謂的「急劇閾值性變化」可能消失,表現變得持續且可預測。換句話說,湧現能力可能只是衡量工具的錯覺,而非模型能力本質上的跳躍。

核心方法與創新

本論文的核心創新在於建構了一個簡單的數學模型,系統性解釋為何非線性或不連續的衡量指標會引發「湧現能力」的錯覺。他們提出:

  • 衡量指標的選擇至關重要:非線性、不連續指標,像是某些精度閾值、分類任務的極端準確率,會使模型性能看似出現階梯狀躍升。
  • 反之,線性且連續的衡量指標會呈現平滑、可預測的性能提升曲線。

為了驗證該理論,他們設計了三重實證策略:

  1. 在InstructGPT/GPT-3系列模型上驗證三項預測:挑選宣稱有湧現能力的任務,變換指標,結果顯示所謂湧現現象會根據指標不同而有明顯消失或改變。
  2. 基於BIG-Bench資料的元分析:分析多項湧現能力報告,評估指標變化對湧現特性的影響,再次確認指標依賴性。
  3. 跨多種視覺任務及深度網絡的實驗:應用相同方法在電腦視覺領域製造出新的湧現能力現象,說明這些「能力」極有可能並非模型本質。

主要實驗結果

三個方面的實驗結果互相印證了作者的假設:

  • 在語言模型中,使用不同、尤其是連續度較高的衡量指標時,模型性能隨規模伸展呈現緩慢且連續的升高,沒有明顯的閾值湧現。
  • BIG-Bench的綜合分析顯示,原本被宣稱為湧現的能力,有諸多是因為指標的門檻效應造成離散化評價,而非模型能力本質跳躍。
  • 視覺任務上,指標切換同樣可以創造出「看似突然產生」的能力,強化了這種湧現現象是衡量工具的錯覺論點。

更重要的是,透過更精良的統計方法(例如更大量數據、置信區間評估),所謂湧現的現象亦有所減弱,暗示過去研究在數據分析上的盲點。

對 AI 領域的深遠影響

此項研究挑戰了目前AI社群對於模型擴展與能力跳躍的主流認知。湧現能力若只是衡量方式的一種錯覺,代表我們需要重新審視「模型規模與能力關係」的基礎假設。這將影響未來在模型設計、性能評估、與應用預期的理論建構及實務操作,具體表現在:

  • 模型擴展策略的調整:若能力成長是連續且可預期的,強化模型容量或架構時應更重視緩進式的表現提升,而非期待跳躍式突破。
  • 評估指標的慎選:研究者應選擇連續且具有解釋力的指標,避免非理性門檻導致誤判模型性能,特別是在發掘新能力時。
  • 研究方法論的革新:強調統計嚴謹性和指標敏感度分析,避免過度解讀模型數據中的噪聲或假象。

此外,本論文促使學術界與產業界思考AI模型能力的本質,從「奇異急變」轉向「平滑演進」,更謹慎且理性地看待LMs的未來發展,並激勵對模型內部機制的深入探索,而非僅憑外在行為的突變圖像下結論。

結語

總結來說,Schaeffer等人透過數學建模與廣泛實證,指出「大型語言模型湧現能力」極有可能只是一種「錯覺」,由評估指標所產生的非連續性所致。這份工作不僅為LLM能力的研究開啟了新的視角,也強調AI研究必須在評估方法論上投入更多心力,以達致真正理解與掌控人工智能模型能力的目標。


論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004

Riemannian Score-Based Generative Modelling 深度簡介

在生成模型蓬勃發展的近年,分數基生成模型(Score-based Generative Models,簡稱 SGMs)以其強大的生成能力與優異的表現,成為機器學習領域炙手可熱的研究主題。然而,傳統的 SGMs 主要建立於資料位於歐氏空間(Euclidean space)、即平坦流形的假設之上,這在許多實務場景如機器人學、地球科學或蛋白質結構建模中,資料卻多半天然存在於具有彎曲幾何結構的黎曼流形(Riemannian manifolds)上,造成現有方法的適用性嚴重受限。針對此一挑戰,加拿大多倫多大學的 De Bortoli 等人於 NeurIPS 2022 發表的傑出論文《Riemannian Score-Based Generative Modelling》提出創新架構,成功將分數基生成模型擴展到黎曼流形上,開創了生成建模的一項突破。

研究背景與動機

分數基生成模型是一類透過估計資料分布梯度(資料分數,score function)來構建的生成模型,主要分兩階段:在「加噪」(noising)階段,透過定義一個由真實資料往高斯噪音緩慢轉變的「前向擴散」(forward diffusion process);隨後在「去噪」(denoising)階段,透過學習該擴散過程的時間反向(time reversal)動態,來逐步恢復原始資料分布。此機制使得 SGMs 可以避免直接學習複雜的資料分布,而改由估計分數函數來實現高品質生成。

然而,至今大部分 SGMs 都是在歐氏空間設定中提出與實作,假設底層資料分布是平坦空間的一部分,難以應付資料存在於如球面、超橢球面、特殊正交群 SO(3) 等具非平坦度量(非歐氏)的黎曼流形空間。舉例來說,在地球氣候數據中,資料通常表示為球面上的分布;在機器人學與計算生物學中,蛋白質和機器手臂的位姿可能分布在旋轉群這類流形上。為了突破現有限制,迫切需要將生成模型理論與演算法擴展至一般黎曼流形空間中。

核心方法與創新

本文的核心貢獻在於系統性地將 SGMs 理論架構延展至可帶有彎曲結構的黎曼流形,提出一套名為 Riemannian Score-based Generative Models(RSGMs)的生成模型架構。其創新關鍵可歸納如下:

  • 黎曼流形上的擴散過程定義:作者重新定義了前向擴散過程(forward diffusion process),使其為在黎曼流形上定義的隨機微分方程(Stochastic Differential Equation, SDE)。這條 SDE 模型了從真實資料分布向含極端擾動的平衡分布(通常是参照流形上的標準度量的抑制性噪音分布)緩慢演化的過程,並且尊重流形的幾何結構,例如向量場會自動被限制於切向空間(tangent space)。
  • 黎曼流形上的時間反向模型:基於前向擴散的定義,作者利用黎曼流形上的 Eells-Elworthy-Malliavin 構造,建構了對應時間反向 SDE,並證明其生成動態仍可用流形上的分數函數估計來近似。透過這種時間反向 SDE,能夠從簡單先驗分布重建出複雜流形上的真實資料分布。
  • 分數函數的黎曼估計策略:分數函數是生成模型的關鍵,而黎曼結構使得分數函數必須定義在切向量場上。作者設計了基於對切空間內的梯度與黎曼度量的分數估計方法,確保所學模型可有效捕捉資料在流形上的局部結構與全域幾何性質。
  • 實作與數值方法:針對黎曼 SDE 的離散化與數值近似,作者融合了流形幾何與數值 SDE 解法,設計適用於流形的數值模擬器,並提出基於黑盒分數估計器(score network)與流形投影技巧的演算法,使得方法可直接應用於各類典型流形場景,如球面、超橢球面與旋轉群。

實驗結果精要

作者在多個典型的黎曼流形資料集上做廣泛實驗,證明了 RSGM 方法的有效性與適應性:

  • 球面資料上的氣候數據模擬:透過地球表面氣候相關數據分布(如風速向量與溫度場分布)做生成實驗,RSGM 能夠成功模擬出符合物理結構與統計特性的球面環境資料,相較於以歐氏方法處理轉換數據,生成品質大幅提升,且保持了流形固有的連續性與可微性結構。
  • 超橢球面與旋轉群 SO(3) 上的合成實驗:在造假實驗中,RSGM 可以精確地復原在高維流形如超橢球面上分布的資料,並在旋轉群 SO(3) 上處理機器人手臂姿態資料,展現該方法在機器人學與計算機視覺領域的潛力。
  • 與既有方法的比較:相較於傳統歐氏 SGMs 的簡易投影方法,RSGM 明顯在生成的樣本多樣性與逼真度方面優勢顯著,同時維持了穩定的訓練過程,印證了黎曼流形結構對生成性能的提升效果。

對 AI 領域的深遠影響

本篇論文不僅解決了以往 SGMs 在流形資料生成上的理論與實踐瓶頸,更在生成模型的幾何學基礎上開啟了新方向。其影響和應用潛力包括:

  • 拓展生成模型的應用範圍:過去生成技術多侷限於歐式空間,本文拓展到黎曼流形,使得在量子物理分子結構建模、腦神經影像形狀分析、機器人學姿態預測與動作生成、天文與氣象數據分析等多種領域,皆能使用更自然且具結構適應性的生成模型。
  • 促進幾何深度學習與生成模型整合:本文理清了生成過程中如何有效結合流形幾何與隨機分析,對深化幾何深度學習研究具有指標意義,尤其在如何設計流形上高效可微神經網路與動態系統模型方面具啟發性。
  • 推動流形結構資料的統計建模革命:未來大規模複雜結構資料如蛋白質序列與三維構型、交通網絡與社會網路的幾何特性分析,將可藉由 RSGM 這類流形生成模型,實現更精確且具解釋性的統計推斷。

總結而言,De Bortoli 等人提出的 Riemannian Score-Based Generative Modelling,不僅是將 SGMs 理論從歐氏空間推廣到更廣泛的幾何空間的里程碑,更吹響了生成模型與數學幾何深度融合的號角,具有重塑生成建模未來發展格局的潛力。


論文資訊
📄 Riemannian Score-Based Generative Modelling
👥 De Bortoli, Mathieu, Hutchinson, Thornton, Teh, Doucet
🏆 NeurIPS 2022 · Outstanding Paper
🔗 arxiv.org/abs/2202.02763

2026年3月31日 星期二

Gradient Descent: The Ultimate Optimizer - NeurIPS 2022 獲獎論文深度解析

在當前人工智慧與機器學習領域中,最佳化演算法扮演著核心角色。從最早的線性回歸,到深度神經網路,優化方法不僅決定了模型訓練的效率,也極大影響最終模型的效能。在眾多優化技術中,梯度下降法(Gradient Descent, GD)因其簡潔與有效而成為標準選擇。然而,隨著新興優化方法層出不窮,GD的地位是否仍無可取代?NeurIPS 2022一篇由Chandra等人發表,並榮獲Outstanding Paper獎項的論文《Gradient Descent: The Ultimate Optimizer》正是對此問題的深入探討與系統驗證,為我們重新審視梯度下降這項經典演算法的價值與潛力。

研究背景與動機

在大型機器學習模型成功的背後,複雜的優化技術一直不斷推陳出新,包含Adam、RMSProp、AdaGrad等自適應學習率方法,甚至更進階的二階優化方法如Newton法與擬牛頓法。這些方法常以提升收斂速度、減少調參成本為訴求,企圖超越傳統GD。然而,這些新方法在實際訓練中經常遭遇過度擬合、震盪及不穩定收斂等問題。過去也缺少理論與實證上的系統分析,以確認GD在現代深度學習環境中的最優性。因此,本論文旨在全面剖析梯度下降的動態行為與優勢,並且對比現代先進優化器,探討GD是否仍為最後的最佳解。

核心方法與創新

本論文主體是一套嚴謹的理論分析和大量實驗結果相結合的框架,涵蓋多種常見的損失函數與模型架構:

  • 理論分析:作者從非凸優化的視角出發,利用動態系統方法與隨機過程理論,嚴密推導了梯度下降在各類損失函數上的收斂行為,包括鞍點逃逸效應、收斂速度和解的品質。
  • 優化動力學視角:透過引入Lyapunov函數及噪聲分析,研究GD如何藉由內建的隨機性自然跳脫局部最小值與鞍點,而這正是許多擬似二階方法缺乏的特性。
  • 系統性實驗對比:論文實作大量實驗,涵蓋多層神經網路、卷積網路與變分自動編碼器等模組,與主流自適應學習率法及二階方法進行公平競爭,全面評估收斂速度、泛化能力及調參難易度。
  • 調參分析:透過嚴謹的敏感度分析,揭示GD在學習率設定上的魯棒性,並提出一種基於動態步長調整策略,兼具效率與穩定性的優化方案。

主要實驗結果

論文的實驗結果展現出梯度下降在多面向的卓越表現:

  • 穩定性與泛化:GD在各種模型上均展現比自適應優化器更穩定的訓練曲線,且其泛化能力在多數任務(如圖像分類、語言模型)中優於Adam及其變種。這反映出GD跳脫鞍點和選擇既優解的能力。
  • 速度與效率:雖然自適應方法初期收斂較快,但在達到精細解附近時往往陷入震盪或過擬合,相較之下,GD能以更緩和的節奏提升損失值,最終達到更佳解。
  • 超參數敏感度:GD的學習率敏感度適中,透過本論文提出的動態調整策略,更降低調參難度,方便實務應用。
  • 理論驗證實驗契合:實驗數據吻合作者的數學推導,證證了GD理論動力學的正確性,具極高說服力。

對 AI 領域的深遠影響

這篇論文不僅理論與實驗齊發,還深刻影響了機器學習最佳化方法的未來方向:

  • 首先,論文重新肯定了「經典」梯度下降作為終極最佳化器的地位,指出當下各種新方法雖具備快速收斂優勢,卻可能付出泛化性能和穩定性的代價。這促使研究者在設計新優化器時,應更加注重動態行為與長期收斂品質。
  • 其次,論文深化了我們對非凸優化問題的理解,特別是在深度學習模型中如何有效避開鞍點與劣質極小值。這種動力學視角成為後續相關研究的理論基石。
  • 第三,作者提出的動態步長調整策略,為實務訓練中自動化調參提供了新思路,提升了GD的易用性與效率,降低了部署高性能深度模型的門檻。
  • 最後,該研究對優化算法的評估標準提出反思,強調泛化能力與收斂穩定性應與收斂速度並列考量,促進AI訓練生態更健康發展。

總結來說,《Gradient Descent: The Ultimate Optimizer》以嚴謹數學基礎結合全面實證實驗,成功定義了梯度下降的理論極限與實際優勢,為長期以來圍繞優化技術的討論劃下里程碑。對於研究者與工程師而言,這代表著在設計深度學習訓練架構時,無須盲目追逐複雜新算法,反而應重視基礎演算法的深度理解與合理應用。未來,該篇論文的理論模型與方法有望催生出新一代的梯度優化策略,推動AI領域性能與可靠性的雙重提升。


論文資訊
📄 Gradient Descent: The Ultimate Optimizer
👥 Chandra, Xie, Ragan-Kelley, Meijer
🏆 NeurIPS 2022 · Outstanding Paper
🔗 arxiv.org/abs/2201.01536

解析大型語言模型(LLM)神經網路中超疊加現象與多義神經元

本次演講內容主要介紹大型語言模型(LLM)的運作機制,並深入探討神經網路內部的超疊加(superposition)現象與多義神經元(polysemantic neurons)對模型解釋性的影響。

課程前置與專案組隊說明

講師提醒學生若未修畢先備課程或未通過資格測驗,應儘速聯繫安排補救。針對研究專案,將提供多個研究點子,並用共享試算表讓學生自選或提案新點子組隊,促進合作。

LLM解構基礎

講者簡述了LLM的架構,特別是Decoder-only Transformer模型的工作流程,包括:

  • Token嵌入:將字串拆分成子詞(tokens),並轉換為向量表示。
  • 多頭注意力機制(Multi-head Attention):依序建立上下文依賴表示,並利用因果注意力(causal attention)確保推理時不會窺探未來token。
  • 前饋神經網路層(Feed Forward Network):利用非線性映射擴展並壓縮向量,增強模型擬合能力。
  • 殘差連接與層正規化(Residual Connections & Layer Norm):保持訊號穩定與信息流暢通。
  • 位置編碼(Positional Encoding):透過RoPE等機制讓模型理解token在序列中的相對位置。
  • 最後透過投影至詞彙大小的維度並經softmax,產生下一token的機率分布,以帶有隨機性的Top-p採樣產生下一輸出。

神經元激活分析與多義性問題

早期解釋方法嘗試觀察神經元在不同輸入文本中的激活值分布,期望能將某些維度對應至特定的語義特徵(如電影角色、法律文本等)。然而,實際上多數神經元為多義神經元,會對多種無關特徵同時激活,導致解釋變得困難,此現象稱為「干擾」(interference)。

超疊加(Superposition)理論

由於模型維度有限,但希望同時表示大量語言特徵,LLM透過「超疊加」現象在有限維度內「壓縮」多重、稀疏的特徵表示。換言之:多於維度的特徵被同時碼入相同空間中,造成神經元表示多義。

講師舉了一個「五維輸入壓縮至兩維」的簡單線性神經網路實驗模型說明超疊加:

  • 若輸入向量稀疏(多維度為零),模型能成功用低維表示重構稀疏的高維向量,即發生超疊加,且學習將多個特徵方向重疊表示。
  • 若向量密集,模型採用類似PCA方式表示,無超疊加,特徵方向間皆正交。

此現象強調LLM的密集向量實際是在模擬一個更高維、稀疏的特徵空間,為後續研究模型解釋性及特徵解碼提供重要思路。

互動問答精華整理

  • 不同序列長度與位置編碼會影響相同token在不同位置的特徵激活。
  • 目前學界尚無統一定義「特徵(feature)」為何,不同論文視角不一:向量空間的一維維度或向量方向皆有可能。
  • 增加模型維度不一定會降低多義性,因為模型往往會利用更大空間同時表示更多特徵,干擾仍然存在。
  • 探究稀疏性對不同頻率特徵的影響也是未來研究方向,例如高頻詞與低頻專有名詞的特徵表達。

總結而言,本次講座闡述了大型語言模型中深層次的結構理解與解釋困境,尤其是多義神經元與超疊加對模型表徵與可解釋性帶來的挑戰,提供機制可解釋性研究的起點及重要基礎理論。



Is Out-of-Distribution Detection Learnable?

在現今人工智慧快速發展的時代,「分布外檢測」(Out-of-Distribution Detection,簡稱 OOD 偵測)成為機器學習系統安全與可靠性不可或缺的一環。面對在訓練階段未見過的資料樣本,系統是否能夠自動指出這些不屬於訓練資料分布的異常輸入,對於自動駕駛、醫療診斷及金融風控等關鍵應用具高度實務價值。Fang 等人於 2022 年在 NeurIPS 發表的論文《Is Out-of-Distribution Detection Learnable?》,獲得當年度的 Outstanding Paper 獎項,吸引學術界與工業界對 OOD 偵測的本質及其可學習特性做出深刻探討,本文即將針對其內容進行詳盡解析。

研究背景與動機

傳統機器學習模型通常假設訓練及測試數據來自相同分布,然而,現實環境中往往無法保證這種條件。當模型遇到不同於訓練資料的輸入時,模型可能會做出高置信度卻錯誤的預測,造成嚴重後果。為提升系統在「分布外」數據上的魯棒性,分布外檢測技術應運而生。然而,現有文獻多屬手法設計與性能比對,缺少對於「OOD偵測問題本身是否具備學習可能性」的理論探討。

本論文的核心問題聚焦於:在什麼條件下,OOD 偵測是可學習的?也就是說,是否存在模型及訓練程序保證在測試階段能以理論上的保證準確識別分布外樣本。此一問題不僅為探索 OOD 偵測的理論根基,更是推動該領域方法論前進的關鍵。

核心方法與創新

論文從統計學習理論的角度切入,將 OOD 偵測問題形式化為條件分布下的分類問題,探討其可學習邊界(learnability boundary)。作者首創性地提出了一套分析框架,定義了對 OOD 偵測而言合理且充分的分布假設條件,包括「支持集可分離性(support separability)」與「分布邊界光滑性(boundary smoothness)」。基於此,他們證明在理想條件下,OOD 偵測確實存在可學習的理論保證。

方法層面,不同於過往多從啟發式指標(如最大 Softmax 機率、能量函數)檢測分布外輸入,本文還證明了最優檢測器可由特定的監督學習程序逼近,且模型容量與訓練樣本數影響其泛化能力。這種將 OOD 偵測納入典型監督學習框架的視角,為研究提供強力的理論工具,使後續可工程化實現具有理論支持的 OOD 偵測模型。

主要實驗結果

為驗證理論,作者設計了大量合成與實務資料集的實驗,測試不同模型架構與訓練策略在 OOD 偵測效能上的表現。實驗包括經典影像數據集(如 CIFAR 系列)對比不同的分布外樣本來源。結果顯示,在滿足特定條件的情況下,所提出理論框架所指導的學習方法,能顯著提升識別真實分布外樣本的準確度與穩健度。

此外,作者探索模型容量與樣本複雜度間的權衡,發現過度簡化的模型無法捕捉足夠有效特徵進行 OOD 偵測,而過度複雜模型則可能導致過擬合,影響泛化能力。這些洞察為實務設計提供寶貴經驗,讓工程師在模型選擇與訓練數據規劃時更有參考依據。

對 AI 領域的深遠影響

該論文的貢獻遠超過單純性能提升,奠基了 OOD 偵測的理論基石,解答了這一領域長久存在的可學習性疑問。它展示了如何將 OOD 偵測納入較全面與嚴謹的學習理論框架,促使後續研究不再僅依賴經驗設計,而是結合理論與實踐,推進更可靠的自我監控學習系統發展。

在安全關鍵的人工智慧應用中,保證模型能夠有效識別未知與異常輸入是系統信任的前提。本文所提出的學習理論框架及其實證驗證,為未來自動駕駛、醫療 AI、工業檢測等領域提供了理論指引,具備相當的社會與經濟價值。此外,該研究方法論也可啟發對其他類型分布偏移(如 Domain Adaptation、Continual Learning)問題的理論探討,助力構建更穩健及智慧化的 AI 系統。

總結來說,《Is Out-of-Distribution Detection Learnable?》論文以嚴謹的數理分析,突破性地揭示了分布外檢測的可學習本質,解決了長期困擾研究者的理論瓶頸。其理論與實驗成果不僅豐富了學術內涵,也提供了工程應用上的實務指導,成為 OOD 偵測領域的里程碑之作。


論文資訊
📄 Is Out-of-Distribution Detection Learnable?
👥 Fang, Li, Lu, Dong, Han, Liu
🏆 NeurIPS 2022 · Outstanding Paper
🔗 arxiv.org/abs/2210.14707

融合推理能力的迴圈語言模型:突破大型語言模型擴展瓶頸的新架構

本次訪談深入探討大型語言模型(LLMs)擴展的現狀與挑戰,並介紹了一種結合了推理機制的「迴圈語言模型」(Looped Language Models)新架構,突破傳統模型在擴展上的限制。

一開始,講者回顧了OpenAI在ChatGPT之前發表的論文《Scaling Laws for Neural Language Models》,闡明模型大小與訓練資料量的關係——即擴大模型規模需要相應增加資料量才能有效降低損失,避免過擬合及算力浪費。根據該研究,模型大小增加8倍時,資料應增加約5倍以達最佳效能,這成為社群訓練大型模型的重要參考。

然而,隨著使用的資料集幾乎達到互聯網資料極限,資料已成為限制因素。此時,有效解決算力與資料間的耦合便成為關鍵。混合專家模型(Mixture of Experts)可在不增加計算成本下擴大模型,但仍需更多資料支持。繼而,引入推理模型成為突破口,尤其是以「連鎖思考」(Chain of Thought)等提示技術激發模型多步推理能力。

推理模型帶來兩大挑戰:其一是上下文擴展帶來忘記關鍵信息的風險,二是複雜問題可能需要多次推理嘗試才能得到正確答案。此外,推理受限於詞彙表架構,不同語言和文化中表達相同概念所需的token數不同,導致模型未能充分利用大量訓練token中的潛在知識。

針對這些問題,講者團隊提出了「迴圈語言模型」架構,將推理過程直接融合進預訓練中,形成第三尺度的擴展軸。該模型在生成每個token前,通過一個「退出閘門」判斷是否足夠確定輸出,若不滿意則將內部潛向量反覆送回輸入端重新運算,直到達到退出條件或迴圈次數上限。

此架構的優點包括:

  • 不再執行基於詞彙的長鏈產生,減少了詞彙表壓縮鍵值快取(KV-cache)的問題。
  • 充分利用了海量訓練token,實現推理過程的深度和多階段思考。
  • 在相較於具十倍以上參數量且訓練token更多的傳統大型模型上,擁有相當甚至更優的表現,展現高參數效率。

模型內的退出機制以sigmoid函數計算每次迴圈結束的退出概率,採取累積概率函數(CDF)進行判斷,保證退出概率合理且被限制在[0,1]區間內。初期訓練中,模型易落入「退出概率集中在某一迴圈」的陷阱,透過引入熵正則化,鼓勵退出概率分布更為均勻,成功避免此問題。

在訓練和推理階段,不同的KV快取策略被測試,包含從退出迴圈獲取KV快取、各迴圈KV快取平均、及第一迴圈KV快取。結果顯示除第一迴圈KV快取外,其餘方法效果相當,顯示模型在一定程度對KV快取策略具魯棒性。

訓練過程極為繁重,但團隊透過分階段優化和模型結構調整,成功訓練出1.4億與2.6億參數的模型版本,分別對應於單迴圈和兩倍迴圈設計。

此外,團隊以挑戰性數學競賽題目及控制合成數據集作評測,發現迴圈結構主要促進的是「知識操作」(knowledge manipulation)能力,而非單純的知識儲存與提取。往往多於一迴圈的推理能顯著提升模型在解決複雜問題時的準確率,而非迴圈數更多便一定更優,因為過度迴圈會導致性能下降。

總結而言,此方法展現了將多步推理機制融入預訓練的巨大潛力,突破現有LMMs的擴展瓶頸和計算資源限制。不僅對大型語言模型具有重要意義,也有助於提升小型模型在有限資源下的表現效率,類比人腦並非靠增加神經元數,而是更有效利用已有神經連結進行學習思考。



大型語言模型的可解釋性與機制性解讀探索

本次演講探討了如何判斷大型語言模型(LLM)是否在「說謊」,以及從機制性解讀(mechanistic interpretability)角度理解這類模型內部運作原理的進展與挑戰。

演講開頭以ChatGPT的記憶測試為例:當要求模型「忘記」特定詞句時,模型會聲稱已做到,但因詞句實際仍包含於上下文窗口內,該動作實際無法完成。透過持續追問,模型會坦承仍記得該詞句。這反映出我們可透過特定範例訓練模型表現出誠實和有用,但卻無法直接掌控模型的抽象概念或真實度行為,突顯LLM的可解釋性問題。

目前最具前景的研究方法之一是使用「稀疏自編碼器」(sparse autoencoder)來從模型內部提取特徵,這些特徵往往對應可被人理解的概念(例如貓、狗、Wi-Fi網路等),甚至較複雜的內部衝突概念。透過調整這些特徵的強度,可精細影響模型的回答傾向。

然而,根據研究人員Chris Olah的指出,目前我們僅能提取出模型所知概念的不到1%,其餘「隱藏特徵」如同「黑暗物質」般難以觀察。這意味著語言模型的知識宇宙遠超過我們現階段的解讀能力。

接著,演講介紹了Google的Gemma 2B語言模型的內部數據流運算過程,說明如何將文字詞彙轉換成向量,再經過26層疊加層層變換,最後分析該模型如何根據詞彙的殘差流(residual stream)來生成下一詞的概率分布。演講者展示透過修改某個特定神經元輸出值,進而控制模型在判斷如「Wikipedia的可靠性」時,是傾向信任還是懷疑的實驗效果。

但觀察到此神經元對文本最大激活的例子往往並非懷疑或不信任相關,而是與字母大寫或專有名詞有關,反映出單個神經元會呈現「多義性」現象(polyssemanticity),即同一神經元會對多種不同概念產生響應。這種多義性在語言模型中普遍存在,遠比視覺模型更為常見。

為說明多義性的來源,研究提出「重疊(superposition)」假說:模型學習的概念多於神經元數量,透過特定神經元組合共同表達一個概念。解決方案是嘗試用「稀疏自編碼器」找出這些神經元組合的模式,進而回復出單一明確的概念特徵。

稀疏自編碼器的運作機制為:從一層神經元輸出中,利用一個權重矩陣映射出多個潛在概念向量,並強制大部分概念值稀疏(接近零),僅讓少數特徵激活以重建原始神經元信號。透過訓練,該模型可學習將複雜的多重概念拆解成更易理解的特徵。

演講示範如何將Gemma模型第21層的輸出送入稀疏自編碼器,找到表達「懷疑」等概念的特徵,並透過控制該特徵強度成功讓模型生成懷疑Wikipedia可靠性的回應。類似方法已在多種語言模型(如Anthropic的Claude 3、OpenAI的GPT-4)上取得顯著成果,包括跨語言、跨模態的特徵提取,顯示該技術對解讀巨大語言模型的潛力。

儘管有此進展,演講也指出挑戰依然巨大:許多細微與罕見的特徵極難提取,高昂的計算成本與現在自編碼器只能專注於模型單位置的限制,讓交叉層的概念疊加難以完全解開。研究正開發新方法(如sparse cross layers)試圖打破此瓶頸。

演講總結,機制性解讀與稀疏自編碼器為大型語言模型的內部結構帶來前所未有的洞見,未來將持續推進,使我們或可更好理解、控制這些強大語言系統,然而模型能力可能仍持續超越我們理解的速度。