2026年6月7日 星期日

Data Shapley in One Training Run 深度解析:高效且精準的資料貢獻評估新典範

在現代機器學習中,資料的重要性不言而喻。如何量化個別資料點對模型表現的實際貢獻,是理解模型決策、優化資料清理、推動資料版權保護等多個重要議題的核心。然而,現有的資料價值評估方法,尤其是基於Shapley值的資料貢獻分析,因為需對資料子集反覆重新訓練模型,計算成本極高,且無法針對單一模型的資料點貢獻進行精準估計,嚴重限制它們在大型深度學習模型上的應用。

研究背景與動機

Shapley值源自合作博弈論,是一種理論上公正分配貢獻的方法,在機器學習中被引入來評估不同訓練資料如何影響模型整體表現。過去的研究多透過多次展示不同的資料子集並訓練對應子模型,來估計每個資料點對模型效能的邊際貢獻。然而,

  • 對大型預訓練模型(例如基礎模型)來說,這種重訓策略的計算成本非常龐大,甚至明顯不可行。
  • 且傳統方法的評估是針對整個學習算法的一致性產物,而非針對單次訓練中所得到的「唯一」模型,造成資料貢獻分數的泛化性,失去針對性與實用性。

隨著基礎模型(Foundation Models)與生成式 AI 的興起,對於訓練資料的透明度、資料版權責任及資料品質把控更是備受關注,迫切需要一種高效且能針對單一模型工作的資料歸因方法。此即本論文 “Data Shapley in One Training Run” 的研究動機所在。

核心方法與創新

本論文最大創新在於提出In-Run Data Shapley,一種可以在「單次模型訓練流程」中即時計算資料貢獻的演算法。其核心架構包含以下幾項關鍵技術:

  1. 優化的資料貢獻估計流程:傳統Data Shapley需要透過大量重新訓練,模擬多種資料子集合。作者提出利用模型訓練過程中中間狀態的資訊,估計各資料點對模型權重更新的貢獻,達到即時追蹤資料價值。
  2. 巧妙整合影響函數(Influence Functions)與軌跡分析:透過理論推導和實際運算,In-Run Data Shapley 不單純計算模型最終表現變化,而是追蹤每一訓練步驟中資料對參數梯度影響的累積效應。
  3. 極低額外計算負擔:作者在設計上避免重複前向或反向傳播,利用自動微分框架與資料樣本批次化策略,使得整個過程的額外計算成本相較標準訓練流程只有微乎其微的增加。
  4. 具體對應單次訓練結果模型:不再給出泛化於算法本身的貢獻評估,而是精準鑑定該特定訓練實例所學到模型中,每筆資料的實際貢獻分數。

整套方法的設計,不僅解決了大模型訓練成本導致的技術瓶頸,更順應深度學習實務趨勢,成為首個可實際應用於基礎模型預訓練階段的資料貢獻評估工具。

主要實驗結果

論文中作者針對多個典型資料集及大型深度學習模型,進行了全面的實驗驗證,其中重點成果包括:

  • 效率方面:與傳統Shapley方法相比,In-Run Data Shapley 的運算時間減少了數十倍至上百倍,使得原本無法承擔的大規模基礎模型訓練歸因分析成為可能。
  • 貢獻評估質量:通過實驗與傳統重訓估計的相關性分析,In-Run 方法在準確性上具有高度一致性,能有效辨識出高影響力及低影響力的訓練資料點。
  • 應用實例:他們展示了如何利用該方法檢測預訓練資料中的不良或重複樣本,以及資料隱私相關風險,並提供求證圖像生成模型中個別樣本對生成質量的影響。
  • 資料版權與版權保護意涵討論:作者嘗試將資料貢獻值用於版權認定,探索如何定量界定哪些資料對生成式 AI 模型具有關鍵貢獻,有助於法律及政策層面未來規範。

對 AI 領域的深遠影響

本研究突破了資料歸因領域歷史性的運算瓶頸,帶來以下重要影響:

  1. 促進透明且可解釋的資料使用:藉由精確計算資料點對特定模型的貢獻,使用者及研究者能更清楚地理解訓練資料的價值與作用,提升模型訓練流程的透明度與信任度。
  2. 推動資料裁剪與優化策略:有了即時且精細的資料貢獻評估,開發者能針對性剔除無用或有害資料,減少訓練時間與成本,同時提高模型效能及穩健性。
  3. 啟發基礎模型預訓練階段監控機制:過去無法對預訓練大型模型的資料貢獻進行詳細觀察,此方法為資料品質控制與來源追蹤奠定了實務可行的基石。
  4. 加速資料版權法律與倫理規範形成:在生成式 AI 崛起之際,準確的資料貢獻量化有助於界定資料擁有權,保障原始資料提供者權益,同時促進合理授權與風險控管。

總結來說,Wang 等人在 ICLR 2025 推出的 Data Shapley in One Training Run 打造出一個融合理論創新與工程實踐的資料影響力評估框架,突破了過去因計算複雜度而無法拓展的限制。這不只是一項技術創新,更可望成為未來 AI 訓練流程的標準工具,推動更負責任、更高效的人工智慧發展。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

2026年6月6日 星期六

Learning Dynamics of LLM Finetuning

近年來大型語言模型(Large Language Models, LLMs)在自然語言處理領域取得了顯著進展,然而其微調(finetuning)過程中模型行為的變化及其內在機理仍存在諸多未知。由於微調不僅改變模型的性能,也可能帶來如「虛構」(hallucination)等副作用,理解微調時模型的「學習動態」成為一個重要研究議題。本文由Ren與Sutherland發表於ICLR 2025,榮獲Outstanding Paper獎,其核心貢獻是提出一套分析大型語言模型微調過程中學習動態的理論框架,深入剖析多種微調策略下模型如何累積對不同輸出答案的影響,並進一步解釋觀察到的常見現象及其背後原理。

研究背景與動機

大型語言模型的優異性能在於其龐大的參數量與龐雜的預訓練,但為了適應特定任務,微調成為不可或缺的步驟。常見微調策略包括「指令微調」(instruction tuning)與「偏好微調」(preference tuning),後者更是基於人類反饋如強化學習(RLHF)來改善模型的輸出質量。儘管上述技術已經廣泛使用,微調後模型行為變化的內在機制仍未被完整理解,特別是模型有時會產生意料外的錯誤或重複輸出,這些問題亟需理論支持來診斷與改進。

因此,本篇論文聚焦於「學習動態」(learning dynamics)的分析,即研究單一訓練範例如何在隨時間的微調過程中影響模型對其他範例的預測。透過這種逐步分解影響力累積的手法,作者嘗試搭建一座橋梁,連接實務中不同微調算法的觀察結果與理論解釋,為理解與優化大型語言模型微調提供科學依據。

核心方法與創新

本文提出了以「影響力累積」(influence accumulation)為核心的學習動態框架,將微調過程拆解為多個訓練步驟,追蹤每一步中某一訓練範例對模型整體輸出分布的影響如何傳播與變化。這種分解方法允許對不同類型的微調策略進行統一解釋,無論是指令微調還是偏好微調。

重要的是,作者透過此分析框架提出了關於微調後「虛構」現象的理論假設。例如,模型會因為在回答問題B時學到了某些詞句或知識,反而在回答問題A時不當地借用這些資訊,導致答案中混入不相關或錯誤的內容。此外,重複簡單詞句的問題也被解釋為學習動態中的「影響擴散」效應,使得某些簡單回答被過度放大。這些解釋能幫助研究者理解模型輸出異常的根源。

另一方面,研究還將框架延伸應用到「離策略直接偏好優化」(off-policy Direct Preference Optimization, DPO)中,指出過度訓練會導致模型對原本目標輸出概率的「擠壓效應」(squeezing effect),使得即使是理想輸出也變得不那麼可能生成。這種現象一直是偏好微調中令人困惑的問題,但作者透過學習動態的視角給出了令人信服的解釋,並指出了採用「在策略」(on-policy)方式及其他變體的優勢來源。

主要實驗結果

作者針對多種微調場景進行實驗,驗證其學習動態框架的有效性。包括在指令微調和偏好微調中追蹤模型參數更新與不同訓練例影響間的關係。實驗結果顯示,逐步分解的影響力分析能精準揭示模型在不同訓練階段對特定輸出的傾向變化,幫助識別錯誤產生的節點與原因。

針對虛構現象,實驗成功地複現了部分模型在回答問題時資訊混用、重複簡單片段的行為,並透過影響力累積的數據支持提出的理論假設。此外,關於DPO的「擠壓效應」,作者實驗證明過度迭代的確會降低理想答案的樣本概率,而框架給出的解釋與現象完全吻合。

最後,基於對學習動態的觀察,作者設計了一種簡單有效的微調改進方法,顯著提升了模型在對齊(alignment)任務上的表現,具備實務應用意義。

對 AI 領域的深遠影響

本文開啟了大型語言模型微調過程中「學習動態」的系統性研究,為解析深度學習模型訓練中的內在因果關係提供了新穎視角。對於長期以來表面現象難以解釋的虛構與偏好微調行為,作者的理論與實驗成果建立了堅實的橋梁,推動了模型行為更加可解釋、可控的研究方向。

不僅如此,這套學習動態框架具有普遍適用性,未來有潛力被用於分析更多類型的微調策略與訓練算法,推動自然語言處理與更廣泛的深度學習領域在模型安全性、可靠性、及公平性上的突破。此外,針對DPO「擠壓效應」的理論澄清,對人類反饋強化學習(RLHF)等重要應用場景提供了寶貴指引,優化微調策略以避免訓練陷入不利狀態。

整體而言,Ren與Sutherland提出的「Learning Dynamics of LLM Finetuning」不僅是對大型語言模型微調行為本質的重大洞察,也是推動未來模型對齊技術及安全協同發展的基石,為AI研究帶來深遠且持續的影響。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

近年來,隨著大型語言模型(Large Language Models, LLMs)在多種應用上的廣泛部署,如何確保這些模型的安全性成為人工智慧領域的重要課題。所謂安全性調校(safety alignment),旨在使模型產出的內容遵守道德規範、不含有害或誤導資訊。然而,儘管已有多種對齊方法,研究者發現這些調校常因過於「淺層」而易受攻擊與繞過。ICLR 2025 的傑出論文《Safety Alignment Should Be Made More Than Just a Few Tokens Deep》由 Qi 等人發表,系統性揭示了此一問題的本質,並提出新的思維與方法以提升模型的安全穩固度。

研究背景與動機

過去的研究往往將安全調校集中於影響模型輸出開始階段的「前幾個詞元(token)」,利用這些詞元確保語言內容的合規性與安全性。然而,Qi 等人觀察到,許多現有 LLM 在安全對齊方面容易遭受多種攻擊,包括敵意後綴(adversarial suffix)攻擊、預填(prefilling)攻擊、解碼參數攻擊與微調攻擊等。這些問題反映出模型雖然在初始生成階段有所調整,但隨後的生成仍可被操縱或繞過。作者稱此現象為「淺層安全對齊(shallow safety alignment)」,意即安全調校只深及模型生成的前幾個詞元,而後續生成的潛在空間則缺乏足夠的安全保障。

動機在於,淺層的安全調校本質上為使用方便但脆弱的捷徑,容易被攻擊者利用,尤其在多階段生成與長文本任務中更為明顯。為了建立更為全面且持久的安全性保障,研究團隊鑽研如何讓安全調校「深入」模型生成過程的更多階段,而非僅限於起始部分。

核心方法與創新

本論文首先透過一系列案例研究與分析,系統性剖析淺層安全對齊形成的原因。研究指出,當前安全調校普遍習慣於在模型生成的最初詞元上施加高度約束,導致模型在暫時受控後,隨著生成序列增加,能力遞減、監控稀疏,使得後續生成可透過攻擊策略繞過限制。

為了突破此限制,作者提出:

  • 安全調校深度觀念:強調調校須跨越更多詞元範圍,擴展模型安全約束的影響深度,使安全策略在整體生成中持續生效。
  • 正則化微調目標(regularized finetuning objective):設計一套新穎的微調正則化方法,在微調階段對模型輸出初期詞元的更新作出限制,防止模型過度偏離安全設定,提升對微調攻擊的抵抗力。
  • 演算法實驗與攻擊檢驗:在多種攻擊場景(如敵意後綴、解碼參數多樣化)下驗證論點,且採用深度安全調校策略示範顯著改進防禦效果。

這套正則化微調目標的關鍵在於平衡模型靈活度與安全性,允許模型繼續優化性能的同時,不喪失安全調校的核心保障,避免淺層調校容易被繞過的缺陷。

主要實驗結果

本論文進行了多項實證實驗驗證淺層安全調校的危害與深層調校的必要性。主要結果包含:

  • 淺層對齊模型易受多種攻擊機制影響:敵意後綴與微調等攻擊可輕易繞過起始詞元的安全限制,使生成內容違反預期的安全規範。
  • 深層安全調校帶來顯著的抗攻擊效果提升:透過將安全對齊延伸至生成過程的更大範圍,模型維持高比例的合規生成,即使面對複雜攻擊亦不輕易失效。
  • 正則化微調目標有效減緩微調攻擊影響:在微調實驗中,這種方法能明顯降低模型安全策略被慢慢剝離的風險,提升安全調校的持續時間與穩定度。

此外,作者透過分析模型生成的中後期詞元分布,支持淺層調校問題的存在,並進一步驗證深層調校能強化生成序列整體的安全屬性,而不僅是起始階段。

對 AI 領域的深遠影響

這篇論文從根本上挑戰了現有 LLM 安全對齊的思維慣性,指出單純局限於輸出序列開頭調校存在天然缺陷,呼籲研究社群重新設計對齊策略,使其深入整體生成流程。這對未來 AI 安全研究與應用有以下幾方面重大意義:

  1. 安全對齊策略的深層化趨勢:論文提出的概念與方法將推動未來模型開發中,安全調校不再是表層的「裝飾」,而是貫穿生成管線的核心設計要素。這有助避免因深度不足而被輕易「越獄(jailbreak)」。
  2. 防禦機制多樣化與集成化:提出的正則化微調目標與持續性安全策略,為抵抗微調攻擊等先進脅威提供新思路,激發多種防禦技術的創新與結合。
  3. 促使基礎模型與安全模型訓練分離設計:該研究暗示未來安全模型可能需要在訓練架構與優化目標上與強化對齊特化訓練相結合,而非僅靠初始輸出調整,從而提升更全面的安全保障。
  4. 推動安全對齊理論的深化與實務標準化:定義了安全「深度」的度量概念,促使後續工作在比較與衡量安全能力時有更清晰與量化指標,改善科研社群對安全性評估的一致性。

整體而言,Qi 等人提出的「超越淺層安全對齊」視角,是一個重要里程碑,提醒研究者必須突破現有調校侷限,以更深遠且持久的方式保障大型語言模型的安全性,為推動 AI 可信賴與可持續發展奠定基礎。


論文資訊
📄 Safety Alignment Should Be Made More Than Just a Few Tokens Deep
👥 Qi, Panda, Lyu, Ma, Roy, Beirami, Mittal, Henderson
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2406.05946

KAN: Kolmogorov-Arnold Networks 深度解析 — 以可學習激活函數顛覆傳統 MLP 的新架構

隨著深度學習的持續發展,多層感知機(Multi-Layer Perceptrons, MLPs)因其結構簡潔且易於訓練,成為神經網絡中廣泛應用的基礎模型。然而,MLP 一貫採用固定的節點激活函數(如ReLU、sigmoid、tanh 等),其參數主要集中於連結權重上,這種架構雖然功效顯著,但也限制了模型在學習非線性函數上的靈活性與表達力。針對這個瓶頸,2024 年 ICLR 傑出論文〈KAN: Kolmogorov-Arnold Networks〉提出一種根植於數學深厚理論基礎——Kolmogorov-Arnold 表示定理的新型神經網絡架構,透過革命性地改變「權重」的本質與表現形式,成功突破傳統 MLP 的限制,為深度學習領域帶來全新視野。

研究背景與動機

Kolmogorov-Arnold 表示定理是數學界一項重要成果,其核心論點為任一多變數連續函數均可由一組特定的單變數函數及加法運算表示。此理論不僅提供理論基礎,也啟發作者思考:是否能將深度神經網絡的構成要素之一——連結權重,從傳統的線性參數,改寫為形式更加靈活的函數形式?現有 MLP 結構中,權重本質是標量權重係數,而激活函數則是節點層固定設定的非線性函數。這使得模型的非線性表示能力受到激活函數形式的限制,且權重靈活度有限。作者動機即在於突破此設計瓶頸,藉由將「權重」本身設計成可學習的單變數函數,讓模型在非線性表示上得到更大自由度,進而提升準確性與可解釋性。

核心方法與創新

KAN 全名為 Kolmogorov-Arnold Networks,核心架構的重大突破在於「無線性權重」,而是將傳統神經網絡中每條邊的權重轉變成一組可學習的單變量函數。具體而言,每條連結的參數不再是單一係數,而是使用例如樣條(spline)函數等可微且具靈活度的函數型態,作為激活以及乘法的基本單元。

這樣的設計帶來三項關鍵優勢:

  1. 可學習的激活函數分散於邊上:傳統 MLP 是節點上的固定激活函數,KAN 則將激活函數散佈到網絡連結上,讓整體網絡結構呈現出類似多層次函數組合的表示形式。
  2. 無線性權重限制:整個網絡不再含有單純的線性權重,透過單變數函數擴展其表達能力,理論與實驗皆證明此種形式有更好的逼近複雜函數的能力,尤其適合用於數據擬合及偏微分方程(PDE)求解。
  3. 解釋性與可視化高:由於權重本質是可視化的函數(如樣條曲線),研究人員可以直接觀察每條邊的函數形態,進而理解模型所學習的模式及邏輯,提升人機互動和模型可解釋性。

此架構的數學基礎來自 Kolmogorov-Arnold 表示定理,強調多維非線函數可由一組結構化的單變數函數合成,這與 KAN 用多條可學習函數「邊」組合多層非線性映射不謀而合,為模型的架構設計提供堅實理論支持。

主要實驗結果

作者在多項嚴謹實驗中驗證 KAN 的優越性。首先,在合成數據擬合任務中,KAN 以遠少於參數數量的模型大小,達成同等甚至超越傳統大型 MLP 的準確度。這強調了 KAN 在參數效率上的優勢,意味著更小模型也可以具有極強的非線性表示能力。

其次,在偏微分方程求解這類復雜科學計算任務中,KAN 不僅成功逼近解空間,且明顯優於同尺寸的 MLP,展現出對物理法則隱含結構的強大捕捉能力。這項成果顯示 KAN 不只是純粹的數據黑箱,還能做為數學與科學研究的有效輔助工具。

此外,作者進一步展示了 KAN 在解釋性上的突破:利用可視化單變數函數,有助人類直觀理解模型對輸入資料變換的內部機制,尤其在科學探索上可協助科學家重新發現或驗證數學與物理定律,顯示其在人機協同創新上的巨大潛力。

對 AI 領域的深遠影響

KAN 的問世標誌著「權重非線性函數化」的可行性與優勢,為深度學習架構設計開拓新的方向。過去近代深度學習的發展較多專注於架構深度、網絡寬度、正則化技術及激活函數變革,但普遍仍以固定神經元激活函數與線性權重為設計基石。KAN 推翻了這一觀念,探索「可學習激活函數分散於邊」的新范式,有望促成更靈活強大的網絡結構。

理論層面,KAN 建立在嚴謹的數學定理上,不僅提升模型逼近任意函數的能力,也帶來更佳的神經網絡縮放律(scaling laws),意味著模型擴大不僅帶來性能提升,且提升速度更快,對海量數據與龐大模型訓練具有明顯意義。

實務層面,KAN 支持模型推理與人類直觀解讀的橋接,這是當前 AI 領域追求可解釋 AI(XAI)核心目標之一。在對科學計算、物理模擬及數學探索等專業領域,KAN 能協助研究人員突破黑盒困境,加快科學發現過程。

總而言之,KAN 為深度學習帶來一種新思維,將可學習激活函數擴展到神經網絡邊權重的設計,不只是提升準確度,更提供優秀的模型可視化與可解釋性,極具潛力成為未來機器學習架構的重要基石,有助於推動 AI 技術在更廣泛科學及工業領域的應用。

對 AI 研究人員與工程師而言,KAN 是一個值得深入探索並嘗試集成於既有深度學習框架中的另類架構,尤其適合於需要高準確度與強表達力的複雜問題解決,也為可解釋性 AI 與人機協作開創新契機。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

在現代深度學習的大規模基礎模型中,Transformer架構憑藉其強大的注意力機制,成為了語言處理、語音、視覺等多種序列任務的核心。但Transformer的計算複雜度是二次方(quadratic)隨序列長度增長,導致當輸入序列極長時計算成本和記憶體消耗巨大,阻礙了其在如全文本檢索、基因組學、長音頻等長序列處理上的應用。為了解決此瓶頸,先前研究提出多種亞二次方時間(subquadratic-time)方法,包括線性注意力(linear attention)、門控卷積(gated convolution)、循環模型與結構化狀態空間模型(Structured State Space Models, SSMs)等,但這些替代方案普遍在處理重要模態——尤其是自然語言時,難以匹敵 Transformer 的性能,成為推廣應用的瓶頸。

在本篇於 ICLR 2024 獲得 Outstanding Paper 獎項的論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中,Gu Dao 則提出了一種嶄新的結構化狀態空間模型(SSM)變形,稱為「Selective State Spaces」,同時設計專為此架構量身打造的硬體友好型並行演算法,並將其整合入一個無須傳統Transformer注意力或甚至MLP結構的簡化神經網路框架Mamba。該方法突破性地達成線性時間複雜度,並在多種序列模態上取得超越大型Transformer的表現。

研究動機與背景

Transformer 雖然是現今序列建模的主流架構,關鍵瓶頸在於計算與記憶體使用呈現 O(N²) 複雜度,N為序列長度,對於長序列問題造成極大限制。過去嘗試改進方法為縮減注意力矩陣的計算,或者引入基於狀態空間系統的模型(SSM),後者能以連續時間的狀態演化方程來表達序列依賴,有潛力以線性時間處理長距離依賴。然而,現有 SSM 模型普遍無法有效處理離散模態(如語言),核心問題是它們缺乏「基於內容」的推理能力,即無法根據當前輸入動態調整訊息傳遞與遺忘的策略,導致通用性與靈活性不足,表現在語言任務上的效果遠遜 Transformer。

核心方法與創新

作者團隊的主要創新在於提出「Selective State Spaces」,其核心概念是將 SSM 的參數設計為輸入的函數,使模型能根據當前序列元素「選擇」性地更新或遺忘狀態。具體而言,傳統 SSM 參數固定,一旦訓練完成即無法隨序列內容改變,引入動態參數後,每一步狀態更新將依據該token的特徵微調,有如 Transformer 的注意力使能依據內容調控訊息流通,帶來更強的語境敏感性。

然而,這種基於輸入的動態調整破壞了原有 SSM 可依賴的快速卷積運算結構,理論上增大了計算負擔。為此,論文貢獻其獨特的「硬體感知並行演算法」,允許在循環模式下仍可高效並行計算,最大限度利用現代硬體的多核心及向量化特性,開啟了選擇性 SSM 的實用前景。

為驗證方法可行,作者構建了一個名為 Mamba(無注意力的簡化端對端架構)的神經網路框架,完全去除傳統 Transformer 的注意力層與MLP區塊,僅以選擇性 SSM 作為序列核心模組。這種簡化不僅大幅減少架構複雜度,更由於線性時間與高度並行化設計,實現推理速度較同尺寸 Transformer 快5倍。

主要實驗結果

Mamba 在多個重要序列模態展示強健性能。語言建模實驗中,3億參數的 Mamba 模型不僅優於同參數的 Transformer,甚至可媲美2倍規模 Transformer,不論是在預訓練還是下游任務評估,皆展現極具競爭力的結果。這反映出Selective State Spaces不僅改善了 SSM 處理離散語言的能力,還有效提升了整體序列理解與生成能力。

在其他領域,如音頻與基因組序列,Mamba 同樣展現穩定且優越表現,尤其是在處理長達百萬級序列長度時,依旧保持良好的推理效率與精度,這是現存大多數 Transformer 或類 Transformer 架構無法實現的。

對 AI 領域的深遠影響

Mamba 的提出對序列模型領域帶來多重啟示。首先,它證明了結構化狀態空間模型在引入動態、內容依賴參數後,具備與 Transformer 競爭的能力,彌補了過去 SSM 在離散模態上的缺陷。其次,硬體感知的並行演算法設計,提供了一條線性時間序列模型實作的可行道路,為大規模序列資料處理提供了理論與工程支持。

此外,Mamba擺脫了注意力及MLP塊,顯示即便在非Transformer架構中,只要序列更新機制足夠靈活與高效,同樣能在多元模態取得一流水準,這挑戰了Transformer看似「不可或缺」的地位,引領學界思考更輕量卻高效的序列建模新範式。

最後,Mamba在大規模長序列建模中具備線性伸縮性與高效推理能力,為如全文本搜索、語音識別、基因組分析等長序列場景提供了嶄新解決方案,推動AI技術向處理極端尺度數據邁進,對推動各行業基於長序列的智能應用具有深遠意義。

總結而言,Mamba憑藉Selective State Spaces的創新設計及高效實作,成功架構了一條不同於Transformer但性能不讓的線性時間序列模型新路徑。未來隨著模型規模與資料規模持續增長,其在神經序列模型設計指引和長序列實務應用上的價值,將持續被重視與探究。


論文資訊
📄 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
👥 Gu, Dao
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2312.00752

Learning Interactive Real-World Simulators

在人工智慧的發展歷程中,生成模型已經徹底改變了我們創造文字、圖片和影片內容的方式。從早期的圖像生成到近期的多模態文本生成,這類模型在內容創作的自動化和多樣化中扮演關鍵角色。然而,下一個重大挑戰是讓生成模型不僅能創造靜態或被動內容,更能模擬真實世界中互動式的動態體驗,對人類、機器人或其他互動代理的行為作出回應。ICLR 2024 獲獎論文《Learning Interactive Real-World Simulators》由 Yang 等人發表,正是針對此一難題提出了開創性的解決方案。

研究背景與動機

模擬器在機器學習和機器人領域一直是重要工具,能夠在受控環境中讓模型學習並測試策略,避免直接在真實世界中造成代價高昂或危險的錯誤。然而,現有模擬器大多針對特定任務或場景設計,缺乏通用性與真實世界的複雜度,無法充分反映自然場景中多樣化物體、豐富行為及高維感知反饋。此外,真實世界的互動往往涉及跨模態的信息,比如視覺結果、語言指令與物理控制,這使得模型單一來源的訓練資料難以建構全面的體驗模擬器。

作者觀察到,當前可用於訓練的自然數據集在多個維度上都相當豐富——圖像數據涵蓋各式各樣的物體,機器人數據包含緊密採樣的動作軌跡,導航數據展現多元運動範例。這些異質資料各自呈現了現實世界互動的部分面向,若能有效整合與協調,將有機會建立一個通用、強大且符合實際的互動模擬器,而不需為每種場景從零打造。

核心方法與創新

本論文核心提出了一個稱為 UniSim(Universal Simulator)的框架,基於生成模型,來統一學習多樣化自然資料中蘊含的互動知識。UniSim 能夠接受高階語言指令(如「打開抽屜」)及底層物理控制信號,從靜態的物體與場景映像中預測互動後的視覺結果。

UniSim 主要技術創新包括:

  • 異質資料的協同學習:將來自不同領域且形式多樣的數據(靜態圖像、機器人操控軌跡、導航視頻等)融匯於一體,通過協同的生成模型架構學習到關於物理交互及因果關係的統一表徵。
  • 跨層級指令與控制整合:UniSim 同時支援高階語言指令和低階操作指令,讓模型不僅能根據抽象指令產生視覺變化,亦能細緻模擬實際控制信號所導致的連續狀態轉移,實現細膩的互動反饋。
  • 生成式模擬驅動策略訓練:模型產生的模擬結果可以直接用於訓練不同層級的強化學習策略(從高層決策的視覺語言策略到低層物理控制策略),並能實現零次轉移到真實世界的直接部署。

另外,UniSim 不僅是模擬工具,也能作為增强數據生成器,幫助訓練視頻字幕等其他智能系統,展現其多面向的應用潛力。

主要實驗結果

在實驗部分,作者透過豐富的異質數據集合訓練 UniSim,並從下列幾個角度驗證系統表現:

  • 高階指令模擬:UniSim 成功從靜態場景及物體圖像出發,根據高階指令生成符合預期的視覺結果。例如,給定「打開抽屜」指令,模擬器能預測打開後整個場景的動態圖像。
  • 低階控制模擬:證明 UniSim 對底層機器人關節指令的響應精確且流暢,模擬出的後續狀態與真實操作高度一致,實現了連續動作空間的有效模擬。
  • 下游策略訓練:透過 UniSim 模擬環境訓練的視覺語言策略及強化學習代理,均能在真實場景中零次轉移直接部署並取得不錯表現,彰顯模擬器強大的寫實性與泛化能力。
  • 視頻字幕任務提升:利用模擬生成的豐富訓練資料,視頻字幕模型展現出更好的語義理解及生成效果,拓展了模擬器在其他智能任務上的應用。

對 AI 領域的深遠影響

本論文從根本上推動了模擬器技術向「通用且互動」的方向躍進。透過學習異質的海量自然數據,UniSim 打破了過去模擬器依賴嚴格物理建模或特定場景設計的限制,為生成模型進入動態且連續交互的實時模擬提供了全新範式。

這種方法的長遠意義包括:

  • 推動機器人實證與訓練:傳統機器人訓練往往需要昂貴且耗時的物理實驗,在真實世界運行風險高。UniSim 透過高真實度模擬大幅降低此痛點,有望促進機器人更快速的開發週期與部署效率。
  • 跨模態智能系統的整合基石:結合視覺、語言與動作控製的統一模擬器,促進多模態代理的端到端訓練與優化,促成未來更靈活自主的智能體互動與決策系統。
  • 內容創作與虛擬體驗革新:可控且真實的互動模擬器,將為遊戲、電影特效乃至虛擬實境產生創新內容提供強大工具,帶來更加沉浸且個性化的體驗。
  • 促進模擬驅動的研究與應用擴散:透過將模擬與生成模型結合的方式,UniSim 為其他領域如視頻理解、語義生成等智能任務注入了新的訓練資料與思維方式,具有跨領域促進效果。

總結而言,《Learning Interactive Real-World Simulators》 不僅展示了一種以生成模型構建通用互動模擬器的可行路徑,更實質推動了模擬與真實世界橋接的進程。這將極大地促進機器學習、機器人及多模態智能的實用化,為自主智能代理的未來開啟全新篇章。


論文資訊
📄 Learning Interactive Real-World Simulators
👥 Yang, Du, Ghasemipour, Tompson, Kaelbling, Schuurmans, Abbeel
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.06114

Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations

近年來,擴散模型(Diffusion Models)在生成式AI領域掀起了革命,特別是在影像合成與去噪任務上展現出令人驚豔的性能。然而,這類基於深度神經網路(Deep Neural Networks,DNNs)的擴散模型,雖然能產生高品質且細節豐富的影像,但卻也引發了研究者對其泛化能力與是否僅僅「死記硬背」訓練資料的疑慮。針對這顆焦點問題,ICLR 2024的傑出論文《Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations》由Kadkhodaie等人提出了深入且新穎的視角,揭示擴散模型優異泛化能力背後的數學結構與 inductive bias(歸納偏好)。本文將從研究背景、核心方法、實驗結果與學術意義四個層面進行解說。

研究背景與動機

擴散模型本質上是一種基於機率微分方程與score matching的生成法,透過逐步加入噪聲與逆向去噪過程來復原高質量資料。然而,影像資料通常是高維度且分布複雜,依據維度災難(curse of dimensionality),傳統上很難期待DNN能精確捕捉資料的「連續密度函數」。而近期有報告指出部分去噪模型可能在實際上是「記憶」訓練影像,反映出泛化有待討論。此困境促使研究者重新審視擴散模型學習的本質:究竟DNN學到的是資料的真實密度結構?還是僅是訓練環境的隨機組合?本論文的動機即源於此,試圖以理論分析與嚴謹實驗釐清擴散模型泛化的根基,並解釋為何它們能在視覺上產生超越訓練資料的創新影像。

核心方法與創新

作者從兩個非重疊訓練子集(subset)訓練兩個完全獨立的神經網路去噪器(denoisers),並經由比較發現,當訓練資料量足夠大時,兩個網路學到的score function(資料分布的對數梯度)極其相似,代表它們擬合的是同一連續資料密度。此觀察證明了擴散模型的強泛化能力不只是「記憶」而已。

進一步探討他們發現,DNN在去噪函數學習中隱藏了一種「幾何適應性(geometry-adaptive)」的振盪諧波基底(harmonic representations),即網路自動學會了依據影像底層結構調整的諧波,使得不同影像區域(如邊緣輪廓與同質性區域)展現對應的basis functions。這類基底將影像复杂的空間變化拆解成適合的頻率與方向組合,在這個空間中網路的去噪行為實質是一種閾值收縮(shrinkage)處理,強化了泛化中的結構調適能力。

值得注意的是,這種geometry-adaptive harmonic基底不僅存在於自然攝影影像的訓練中,當作者將網路應用於訓練在低維流形(manifold)上的其他影像類別時,也觀察到類似的基底形態,顯示該歸納偏向與資料的低維幾何結構有深刻關聯。當資料類別已知其最佳基底為幾何適應且諧波式的時候,該模型的去噪表現甚至接近理論最優。

主要實驗結果

透過多組嚴謹實驗,作者首先驗證了兩個在非重複訓練集中訓練的去噪網路對於同一資料庫確實能學出極其相似的score functions,且由此逆向擴散生成的影像在視覺質感上優於訓練集中的任何一張,證明網路不只是記憶學習,具備強泛化能力。

在基底分析方面,作者提出基於頻譜分解的工具揭露出網路的去噪函數與幾何結構高度耦合,包含沿輪廓與光滑區域的不同諧波振盪模式。不論自然圖片或其他低維流形資料,此類基底均反覆出現,凸顯模型對幾何結構的主動學習。

最後,對於已知最佳基底表示的特殊類型影像資料,訓練的神經網路去噪模型表現接近最佳理論結果,證明該方法不僅能詮釋泛化機制,也可反向指導網路結構設計與訓練策略的優化。

對 AI 領域的深遠影響

此篇論文的深遠意義在於,它在理論與實證層面突破了關於擴散模型泛化能力的根本疑問,從本質上闡明擴散模型能成功的關鍵並非單純大量記憶,而是在深度網路中隱含的幾何適應性諧波表示,這種表示可視作一種強有力的歸納偏好。

對AI社群而言,這啟示未來的生成模型設計不應只關注容量和訓練資料數量,更應關注模型架構與學習過程如何捕捉資料的內在幾何結構,並建構更有效的frequency-adaptive或 mesh-adaptive技術,使擴散模型在高維複雜資料上擁有更好的泛化穩定性與生成品質。

此外,研究也促進了深度表示學習(representation learning)與數學頻譜分析的融合,為如何將傳統調和分析理論應用於現代神經網路提供了寶貴範本。未來此方向不僅能推動生成模型理論的發展,也有望促使影像、語音、自然語言等多模態資料的生成與理解技術取得更根本的突破。

總結

總結來講,Kadkhodaie等人的這篇傑出論文提供了擴散模型泛化能力背後機制的扎實證據和深入解析,闡述了Geometry-Adaptive Harmonic Representations作為致勝關鍵,並用實驗證明了其廣泛現象和最優性質。這不僅彌補了擴散模型學術領域中理論與實踐間的認知缺口,也為未來拓展更強大、高效的生成模型指明了重要方向,堪稱擴散模型理解與應用上的里程碑。


論文資訊
📄 Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations
👥 Kadkhodaie, Guth, Simoncelli, Mallat
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.02557