2026年4月18日 星期六

Data Shapley in One Training Run 深度解讀

在現代機器學習發展中,大規模資料的價值分配問題日益受到關注。尤其當模型越來越依賴龐大且多樣的訓練資料時,如何合理衡量每筆資料對模型性能的貢獻,已成為理論與實務界的重要挑戰。Data Shapley 準則因其根植於博弈論,能以嚴謹的數學基礎來量化資料的重要性,被視為目前最具說服力的資料貢獻度評估方法。然而,傳統的 Data Shapley 計算需要對眾多資料子集重複訓練模型,計算成本極高,實務中難以應用於今日主流的大型神經網路和基礎模型(foundation models)。

本文《Data Shapley in One Training Run》由 Wang、Mittal、Song 與 Jia 四位作者提出了一項突破性的技術——In-Run Data Shapley,有效解決了現行方法在計算效率與目標模型特異性方面的瓶頸,並獲得 ICLR 2025 傑出論文優秀獎(Outstanding Paper Honorable Mention)。本篇文章將帶您深入解析該論文的研究動機、核心方法、實驗成果,以及對人工智慧領域的深遠影響。

研究背景與動機

隨著生成式 AI 與大型語言模型的崛起,模型訓練所依賴的資料規模日益龐大,從數百萬到數十億筆不等。在版權爭議、資料策展、模型公平性和資料偏誤檢測等多方面,判斷哪部分資料對模型具備實際助益變得至關重要。Data Shapley 概念源自於經濟學中的Shapley Value,用以公平分配合作遊戲中各方貢獻。在機器學習中,Data Shapley 嘗試以此框架衡量每筆資料在整體模型性能增益上的貢獻值。

然而,現有計算 Data Shapley 的方法必須多次重訓模型於不同資料子集上,嚴重限制了它的規模延展性及針對單一目標模型的解析能力。此外,傳統方法給出的貢獻度分數是基於演算法整體特性,無法洞察特定一次訓練過程中模型的獨特性。

因此,作者希望提出一種能夠在單次模型訓練過程中直接、高效地估計資料貢獻度的新技術,以推動資料評估真正落地於大型基礎模型訓練和後續分析。

核心方法與創新

論文提出的「In-Run Data Shapley」核心思想在於利用「模型訓練過程本身」即時捕捉資料對目標模型的貢獻,而非以傳統的多次重訓方式來評估。其方法架構主要包含以下幾個創新點:

  • 一次訓練過程中估計貢獻:作者透過精巧數值分析技術,將 Data Shapley 的數學公式重構為訓練過程中梯度和參數更新的追蹤問題。此舉使得資料貢獻度的估算能被嵌入模型梯度計算及更新內,無須額外訓練。
  • 近似算法的設計:為了彰顯實務可行性,論文提出近似算法,運用隨機梯度估計與動態權重調整機制,顯著降低計算複雜度,且在理論與實驗中證明誤差在可接受範圍內。
  • 針對特定訓練過程定制:與傳統採樣模型穩態分布的貢獻分數不同,In-Run Data Shapley 聚焦「當前一次訓練實例」下的模型狀態,給出具體、可解釋的資料價值反映,提供更精準的資料監控與篩選維度。
  • 高擴展性能與低計算開銷:在標準模型訓練程序中僅增加輕微計算負擔,顯著優於傳統方法需重複訓練數倍模型的巨大成本,首次實現基礎模型規模預訓練資料的資料貢獻點評。

主要實驗結果

為了驗證所提方法的有效性與實用性,作者針對不同資料與模型設定開展了多組實驗,涵蓋圖像分類、語言模型預訓練,甚至生成模型的情境。主要實驗結果包括:

  • 與傳統 Data Shapley 的對比:In-Run Data Shapley 給出的資料貢獻排序與經典方法高度吻合,且在計算時間上節省數十倍,顯示出極強的效率優勢。同時,所評估的貢獻度具備模型特異性,更能反映特定訓練實例的實際影響。
  • 資料驅動的模型性能分析:實驗發現,在大規模預訓練中,部分資料雖數量龐大,卻對下游任務貢獻甚微,甚至可能帶來負效應。透過 In-Run Data Shapley,能有效識別與篩除此類資料,提升模型效率和泛化能力。
  • 版權與資料倫理的應用探討:透過精準的資料貢獻估計,研究團隊展示如何為生成式 AI 設計更合理的資料版權回報機制,保障原創資料提供者權益,亦促進模型訓練過程的透明度與責任歸屬。
  • 大規模基礎模型預訓練測試:首度將資料 Shapley 評估拓展至基礎模型範疇,展示此技術在眾多資料來源混合訓練時,能夠揭示哪些資料集與子集對模型表現貢獻最大,為資料蒐集和清理提供科學依據。

對 AI 領域的深遠影響

本論文的最大貢獻在於打破了過去資料價值評估在大規模深度學習中應用的技術瓶頸,將資料 Shapley 推向了實際可用的範疇。這不僅是一項技術上的創新,更在多個層面對人工智慧領域產生深遠影響:

  • 推動資料為中心的 AI 研究:隨著「資料驅動 AI」成為趨勢,如何合理分配與管理資料價值,將影響到未來模型設計、訓練策略、數據市場與合作框架。In-Run Data Shapley 提供了一個可行路徑,促使資料本身成為可計量與可管理的資產。
  • 促進公平與透明的 AI 生態:透過準確的資料貢獻度估算,有助於揭露偏見資料來源,減少模型對特定族群或資料子集的過度依賴,提升模型公平性與泛化水平,亦有利於建立資料版權和回饋機制,保障資料提供者的權益。
  • 支持大型基礎模型與生成 AI 的可持續發展:基礎模型因訓練所需龐大資料和資源備受挑戰,In-Run Data Shapley 可幫助科研與工業界優化資料庫維護,實現更加高效且環保的訓練流程。
  • 開創單次訓練中的資料價值評估新範式:未來更多方法可能會借鑒此次提出的思路,將訓練過程內部資訊轉化為即時的解釋與調控機制,豐富機器學習系統的解釋力與適應性。

總結來說,《Data Shapley in One Training Run》憑藉一項巧奪天工的技術創新,重新定義了資料貢獻度評估的實踐可能,使得這一理論工具從受限制的研究方法蛻變成實際可用的工程利器。隨著 AI 應用日益普遍與資料倫理問題加劇,此技術的問世可望在透明化訓練、資料管控及模型優化等多方面帶來波瀾壯闊的革新。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

Learning Dynamics of LLM Finetuning — 解析大型語言模型微調的學習動態

隨著大型語言模型(Large Language Models, LLM)在自然語言處理領域的蓬勃發展,微調(Finetuning)策略成為讓模型適應特定應用場景、提升效能與對齊度的關鍵步驟。然而,微調過程中模型學到的具體機制與各類調校策略影響模型行為的內在「動態」,長期以來仍缺乏系統且深刻的理解。針對此一地帶,Ren 與 Sutherland 在 ICLR 2025 發表的《Learning Dynamics of LLM Finetuning》一文獲得 Outstanding Paper 獎項,透過提出一套創新的學習動態分析框架,開創性地揭示大型語言模型微調期間模型行為變化的步驟分解過程,進而解答多個長期困惑學界與工業界的現象。

研究背景與動機

傳統上,微調大型語言模型多採用指令微調(Instruction Tuning)、偏好微調(Preference Tuning)等技術,以強化模型在特定任務上的表現或讓回應更符合人類偏好。這些過程大幅提升了如 ChatGPT、GPT-4 等生成模型的對話品質與用途多元性。然而,現有研究多聚焦於微調後模型的靜態效能指標,缺乏對「微調過程中模型如何逐步學習」的詳細解析。

學習動態(learning dynamics)概念,強調模型在每個訓練步驟中,特定訓練樣本如何影響模型對其他樣本預測的變化,藉此能從更細緻的視角洞察模型訓練過程中的知識傳遞與調整機制。本文動機為填補 LLM 微調在學習動態層面的理解空缺,解析微調過程中的知識「影響積累」機制,從中獲得對微調策略優缺點的更具體理解,也預期藉此開發更有效的對齊方法。

核心方法與理論創新

本論文核心貢獻在於建立一套通用且細膩的「學習動態分析框架」,此框架可分解在微調過程中,模型的參數更新如何逐步形塑其在多個潛在回應上的行為改變。具體來說,作者從影響函數(influence functions)概念出發,解析單筆訓練資料對模型各種可能回答(responses)的影響,並精確追蹤影響力的累積與散佈狀態,構建出一張多維交互影響網絡。

透過此框架,不僅能統一解釋指令微調與偏好微調中觀察到的多項現象,還提出許多新穎見解。例如,作者針對微調後模型出現「幻覺」(hallucination)現象提出假說:模型在回答某問題時,可能「借用」另一個問題的片語或事實作為回答材料,亦可能因微調強化了部分簡單重複詞組,使得回應風格趨向重複且失去多樣性,這種現象以前多是直觀感受,難以量化與理論支持。

更進一步地,作者透過框架探討以直接偏好優化(Direct Preference Optimization, DPO)為代表的策略演化,揭示一項獨特的「擠壓效應」(squeezing effect):在離策略(off-policy)的 DPO 優化中,若優化步驟過多,連理想輸出也會變得不容易產生,這反映了模型輸出概率分布的縮窄與過度集中,進一步點明了為何在實務中需要適度控制優化強度。此發現促使作者對採用在策略微調(on-policy)和各種 DPO 演算法差異的原理結構有了更深入理解。

主要實驗結果與驗證

在實驗部分,作者以多種微調任務為測試平台,包括典型的指令微調與偏好微調,利用所提出的學習動態分析框架,細緻追蹤模型訓練過程中輸出行為的演變。實驗結果呈現了以下重要觀察:

  • 微調過程中,不同訓練樣本對模型回答影響非均勻分布,部分關鍵樣本在影響路徑中扮演「橋樑」角色,左右回答樣式和內容的生成。
  • 「幻覺」現象在微調階段的出現頻率與特定訓練樣本間的交叉影響高度相關,且該現象可被影響力網絡的結構變化量化。
  • DPO 優化中,文獻上既有的「過度優化導致性能退化」現象,透過「擠壓效應」得到理論說明,且實際實驗中隨著訓練步數增加,生成多樣性逐步減少,符合框架預測。
  • 在此框架指導下,作者提出改良的微調調度策略(包括訓練樣本選擇與步長控制),在多個指標上超越傳統方案,有效提高模型輸出質量及對齊度。

對 AI 領域的深遠影響與未來展望

《Learning Dynamics of LLM Finetuning》為了解大型語言模型微調過程內涵提供了首次系統性且具解釋力的學習動態分析工具,不僅豐富了理論層面的認知,也帶來多項實用價值。透過揭示隱藏在微調背後的知識影響路徑與演化機理,該研究推動了以下幾方面的深遠影響:

  1. 微調策略精細化設計:不同於以往僅憑經驗調整超參數與訓練數據,研究提供了理論依據來優化訓練過程,最大化微調效果同時減少副作用,如幻覺生成、過度收斂等問題。
  2. 模型行為可解釋性提升:理解特定回答為何形成、哪些樣本影響最大,為後續模型調試、錯誤分析及安全性增強提供理論基礎,是促進產業端應用可信度的一大助力。
  3. 開啟新型微調視角與算法創新:「擠壓效應」等發現點明在偏好學習與策略調整中需避免的陷阱,促使研究者思考更穩健的優化框架,推動包含 on-policy DPO 等微調方法的進步。
  4. 跨領域方法論鏈接:將影響函數等統計學工具引入大規模深度學習微調分析,促成 AI 理論與實務的多維度交互,未來可能拓展至其他多模態或結構化數據的學習行為解讀。

總結來說,Ren 與 Sutherland 的這篇論文不僅深刻揭露了 LLM 微調中複雜且微妙的學習動態,還透過理論與實證雙軌推動了模型微調效能與安全性提升的技術演進。對於從事大型模型訓練與應用的工程師與研究者而言,掌握此框架及其洞察,將有助於更精確地控制微調過程中的行為變化,從而打造更為強健且符合人類價值觀的智慧系統。未來,期待該框架延伸應用於多任務、多模態與大型模型更綜合的訓練調整中,進一步推動 AI 向著更安全、可控與高效的方向發展。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

隨著大型語言模型(Large Language Models, LLMs)逐漸廣泛應用於各種場景,模型的安全性與可靠性成為研究與產業界關注的重點。安全對齊(Safety Alignment)旨在透過訓練或微調,讓模型生成符合人類價值觀且避免冒犯性內容、危險指令等的回應。然而,近期越來越多研究指出,即使是經過安全對齊的LLM,仍容易被簡單的「繞過」攻擊(jailbreak)揭穿安全機制,或因正常微調而破壞安全防護。對此,Qi等人於2025年ICLR發表的獲獎論文《Safety Alignment Should Be Made More Than Just a Few Tokens Deep》深入探討了這類脆弱性的根本原因,並提出全新觀點與方法,對LLM安全領域帶來重要啟示。

研究背景與動機

目前主流的安全對齊方法,往往會透過訓練使模型在生成文本的最初幾個詞彙(tokens)就遵循預設的安全策略與規則。換言之,模型學會如何「快速」地從初始詞彙開始輸出安全且合規的內容。看似合理,因為生成的「開頭」往往決定了上下文走向,理應能有效約束後續文本。然而,作者指出這種策略實際上帶來一個潛藏問題:安全對齊採用了一種「淺層」(shallow) 的機制,只聚焦在前幾個tokens的生成分布上,而忽略了更深層次乃至整體句段的生成過程。

淺層安全對齊,意味著模型在安全約束上存在所謂的「捷徑」(shortcuts),攻擊者即能透過「後綴攻擊」(suffix attacks)、預填攻擊(prefilling)、解碼參數調整等簡單方法繞過安全策略。此外,模型在進行常見的微調操作時,也可能破壞這些淺層安全機制,導致先前的安全對齊效果被輕易瓦解。這嚴重影響LLM在現實應用中防止誤用與濫用的能力。

核心方法與創新

本論文的最大貢獻,即在於提出並系統性驗證了「淺層安全對齊」這一概念。作者首先設計了一系列實驗與案例,證明當前主流安全對齊確實重心過度集中於開始生成的少量tokens,導致對模型後續生成的安全控制力不足。基於這一洞見,論文提出應將安全對齊「深度加深」,意味著安全監控不應只施加在生成序列的最初階段,而是貫穿整個文本生成過程,進而消除安全漏洞。

為了實踐上述理念,作者設計了一種正則化微調目標 (regularized fine-tuning objective),此目標透過約束模型在初期tokens的權重更新,使得安全訊號不僅停留於表面,而是持續影響生成策略。這促使模型在生成更長文本時依然維持安全行为。此外,論文提出的分析框架,也涵蓋了對抗後綴攻擊、預填攻擊、解碼參數調整以及一般微調過程中安全弱點的綜合解釋,彰顯其理論與實務上的全面性。

主要實驗結果

透過嚴謹的實驗評估,論文展示了從淺層到深層安全對齊的轉變,顯著提升模型對多種攻擊手法的抵抗力。具體來說:

  • 對抗後綴攻擊:傳統安全對齊只聚焦開頭tokens,容易被在產出的後面加上危險指令的後綴攻擊所繞過。經過深層安全對齊,模型在生成後期仍保有穩健的安全約束,破解率大幅下降。
  • 預填攻擊與解碼參數攻擊:透過深度對齊手段,可有效避免以影響初始條件或調整解碼策略導致的安全性下降。
  • 微調攻擊:常見的微調容易破壞安全策略,本研究的正則化微調方法成功限制了這種影響,使模型在微調後仍維持強健的安全行為。

總結而言,實驗數據清楚支持深度安全對齊策略能夠提升整體LMM的安全性,降低典型的「越獄」風險。

對 AI 領域的深遠影響

本論文的提出與系統分析帶來了三大層面的重要影響:

  1. 安全對齊的根本再思考:過去多數安全對齊策略假設在生成初期維護安全即可,但本論文指出此觀念的局限,促使業界與學界重新審視對齊深度問題,啟發後續更全面、更持久的安全設計。
  2. 攻防視角的整合:透過解釋並統一不同攻擊形式背後的「淺層安全對齊」本質,此研究架構為未來開發對抗更複雜安全威脅的模型提供理論基礎和方法指引。
  3. 實際落地的微調方案:將正則化微調目標引入實務,對「安全微調」流程提供具體改良方向,尤其對大規模模型在持續更新與定制化部署中的安全管理極具參考價值。

綜合來看,Qi等人的研究不僅揭示了LLM安全性不足的深層結構性問題,更提出了切實可行的改進方法,為未來建構更安全可信、且難以被輕易破解的語言模型鋪設了關鍵一步。隨著AI應用版圖拓展,此類深入且全面的安全對齊研究將是確保技術正向發展的基石。


論文資訊
📄 Safety Alignment Should Be Made More Than Just a Few Tokens Deep
👥 Qi, Panda, Lyu, Ma, Roy, Beirami, Mittal, Henderson
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2406.05946

KAN: Kolmogorov-Arnold Networks — 以科爾莫哥洛夫-阿諾爾德表示定理重塑神經網路架構

在深度學習領域,多層感知器(MLP, Multi-Layer Perceptron)向來是各類神經網路架構的基石,廣泛應用於資料擬合、函數逼近、科學計算等多種任務。然而,傳統的 MLP 節點中具有固定且以線性權重加權然後通過非線性激活函數的結構,固然強大但仍有其本質侷限。2024 年 ICLR 優秀論文《KAN: Kolmogorov-Arnold Networks》提出一種根基於經典數學理論——Kolmogorov-Arnold 表示定理的新穎神經網路架構 KAN,不僅挑戰傳統 MLP 的設計思路,更在準確性和可解釋性方面開創突破,為深度學習模型帶來嶄新視野。

研究背景與動機

Kolmogorov-Arnold 表示定理是二十世紀數學界的重要成果,該定理證明了任意多變量連續函數皆可表示為有限個一維連續函數的組合。這為多變量函數的逼近提供了理論基礎。傳統神經網路,尤其是 MLP,雖然具有函數逼近能力,但其結構依賴於網路層內部固定的激活函數和學習的線性權重,難以靈活反映基於單變量函數的更細緻結構。

本研究團隊受此啟發,提出「KAN」(Kolmogorov-Arnold Networks)架構,將傳統 MLP 中節點固定的非線性激活函數轉移到邊(權重)上,並且完全捨棄線性權重參數,改以可學習的「單變量函數」取代。此舉不僅理論意義深遠,亦實際展現出在準確度和模型可解釋性方面的巨大提升潛力。

核心方法與創新點

KAN 的最大創新是將參數權重視為一維函數,而非傳統意義上的標量值參數。具體作法為:用樣條(spline)函數對每個權重實現可微分且可訓練的單變量非線性函數。換句話說,每一條「邊」的權重不再是固定一個數字,而是動態的函數模組,該函數的輸入來自該邊的輸入信號,輸出則是經過變形後的加權結果。

此結構契合 Kolmogorov-Arnold 定理中函數分解的思路:利用多個一維函數組合來表達高維函數。透過學習這些邊上的單變量函數,KAN 不僅能學得複雜的輸入與輸出映射,也大幅降低了模型參數維度與冗餘,有效避免過度擬合。

此外,KAN 不包含任何線性參數,也不依賴節點層固定的激活函數,這種純函數形式的設計讓模型結構更為模組化且易於理解。研究團隊也設計了高效的優化與訓練方法,確保樣條函數參數可在梯度下降過程中穩定學習。

主要實驗結果

論文中,作者針對數據擬合與偏微分方程(PDE)求解等任務進行廣泛評估。實驗顯示,儘管 KAN 模型體積顯著小於相同準確度的 MLP,KAN 卻能達到相當甚至超越的擬合效果。

  • 準確度提升:在多項基準數據集上,KAN 小型模型比起大容量 MLP 效果更優秀,顯示 KAN 在函數逼近上效率更高。
  • 神經擴展定律更快:KAN 具備更優的神經網路擴展定律,意味著增大模型規模會帶來更快速且明顯的性能增長,與傳統 MLP 相比有明顯優勢。
  • 可解釋性強:因邊權重是單變量函數,研究者能直觀地視覺化並理解模型如何在各條邊上轉換輸入,這大大提升了模型內部工作的透明度,對科學研究中的模型驗證與知識發現極為有益。
  • 科學應用示範:在兩個數學及物理問題的案例中,KAN 不僅成功擬合問題,還協助科學家重新發現並解析其中的數學和物理定律,彰顯其作為人機協同工具的潛力。

對 AI 領域的深遠影響

KAN 論文的提出,不只是提出了一個新型神經網路結構,更試圖從根本重新塑造我們對深度學習模型的認識。以下幾點可見其深遠的影響力:

  1. 突破架構設計固有框架:傳統 MLP 透過固定激活函數搭配可學習線性權重,而 KAN 從數學定理出發,將可學習元素放置在「邊」上的函數分布,提示學界探索更多非典型的網路設計理念。
  2. 促進模型可解釋性研究:神經網路持續朝向可解釋性方向邁進,KAN 利用可視化的單變量函數大幅降低黑盒性,讓人類研究者能更好地追蹤與理解模型行為,對融合「科學發現」與「深度學習」具突破意義。
  3. 激勵交叉領域融合:藉由引入經典數學理論(Kolmogorov-Arnold 定理)與現代 AI 模型相結合,KAN 示範了跨領域理論融合新可能,未來有望推動更多數學、物理理論驅動的 AI 架構創新。
  4. 助力科學計算與工程問題:在數值模擬、PDE 求解等科學與工程問題中,KAN展現出強大性能,預示神經網路將成為更強大的科學計算工具,推動物理學與工程領域的計算革命。

綜上,《KAN: Kolmogorov-Arnold Networks》提供了顛覆傳統神經網路設計的嶄新視角。其基於單變量可學習函數替代線性權重的設計,理論上響應傳統函數逼近理論,同時實驗證明能達成更優性能與卓越可解釋性,為 AI 社群帶來具突破性的工具與靈感。對於未來的 AI 架構設計、神經網路理論與跨領域科學計算等方向,KAN 都奠定了重要的里程碑。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

Mamba: Linear-Time Sequence Modeling with Selective State Spaces - 深度解析

隨著深度學習在自然語言處理、語音辨識、基因組學等多種序列資料上的廣泛應用,序列建模技術的效能與效率成為研究的核心焦點。當前最成功且最具代表性的基礎模型,多是基於 Transformer 架構,其核心的自注意力(Self-Attention)機制擅長捕捉長距離依賴關係,然而自注意力機制在序列長度增加時面臨計算和記憶成本呈二次方成長的挑戰,極大限制了其在超長序列(例如百萬級別長度)的應用。

針對此瓶頸,過去許多研究嘗試提出次二次時間複雜度(subquadratic complexity)的替代方案,包括線性注意力(linear attention)、門控卷積(gated convolution)、遞迴模型以及結構化狀態空間模型(Structured State Space Models, SSMs)等。這些方法雖然在理論上能夠降低計算成本,但在關鍵的離散模態(例如語言)表現上常常不敵 Transformer。本文作者 Dao Gu 等人發現其中的原因,主要是這些模型缺乏「基於內容的推理能力(content-based reasoning)」,即無法根據序列中目前的輸入內容動態且選擇性地傳遞或遺忘資訊。

核心貢獻與技術創新

本文提出的 Mamba 模型,在結構化狀態空間模型基礎上引入了「選擇性狀態空間(Selective State Spaces)」的概念,即讓狀態空間模型的參數隨輸入而動態調整,藉此大幅提升模型對離散序列(像是語言)中內容變化的敏感度和適應性。這一點打破了以往 SSM 參數固定不變,透過線性卷積高效計算的限制,讓模型能根據當前 token 決定資訊的繼續傳遞或遺忘,實現更有效的內容理解與推理。

不過動態參數化通常會帶來計算上的瓶頸,失去原本可並行計算的優勢。論文中針對此設計了一套硬體感知的「迴圈(Recurrent)平行演算法」,同時保留了選擇性動態參數的彈性,並優化計算流程以平衡序列長度的線性延展性與 GPU 計算效率。這使得 Mamba 不僅在理論上擁有線性時間複雜度,更實際在硬體上實現了 5 倍較 Transformer 更高的推理吞吐量(throughput)。

值得一提的是,Mamba 模型架構設計剔除了傳統 Transformer 所依賴的注意力機制(attention)及多層感知機(MLP)模塊,僅透過精簡的選擇性狀態空間層架構就能完成端對端的序列建模任務。這種極度簡化卻高效的架構,是該研究的一大亮點,也讓模型更易於擴展至超長序列。

實驗結果與應用

作者在多個序列任務上驗證 Mamba 的性能,包括語言模型、語音分析與基因序列處理,展示其優於現有有效率序列模型的方法的表現。而在語言模型領域,Mamba-3B(約三十億參數規模)不僅優於相同參數量級的 Transformer,甚至能媲美兩倍規模 Transformer 的表現,這包括在預訓練階段及下游任務評估上的一致提升。

此外,Mamba 在處理極長序列(長度可達百萬級別)時,仍維持良好的效能和穩定性,這是現有 Transformer 及其變體難以做到的。其線性時間複雜度使得在硬體與能耗限制環境中,具備明顯的實務價值。

對 AI 領域的深遠影響

Mamba 的提出對序列建模領域具有多方面的深遠意義:

  • 突破 Transformer 計算瓶頸:以選擇性動態的狀態空間模型取代自注意力機制,解決了 Transformer 在長序列上的資源龐大難題,讓基礎模型可應對百萬級序列長度。
  • 內容感知推理能力的提升:透過讓模型參數依內容變化,可動態選擇資訊傳遞策略,這為序列模型在語言等離散模態中帶來全新推理途徑,可能影響未來語言模型結構設計。
  • 硬體加速與效率優化的典範:巧妙整合硬體敏感演算法與動態模型設計,為高效能神經網路提供一條既非犧牲性能又非犧牲效率的可行路徑。
  • 簡化架構的挑戰與可能:捨棄傳統 attention 與 MLP 模塊,利用純粹狀態空間結構進行序列建模,展現了模型簡化與性能優化可同步完成的潛力,為未來架構設計帶來不同思考角度。

總結來說,Mamba 代表了一種突破性且實用性的序列建模新範式。它不只是針對 Transformer 的一種替代方法,更是一種對「如何讓模型既敏銳於內容又高效處理長序列」這一核心難題的新解,未來有望推動大型基礎模型及多模態應用邁向更高效、更深度的發展。

對研究者與工程師而言,深入理解 Mamba 的選擇性狀態空間設計理念與硬體感知算法實作,有助於拓展序列模型的設計視野,也激發出跨領域理論與系統層面優化的潛力。


論文資訊
📄 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
👥 Gu, Dao
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2312.00752

Learning Interactive Real-World Simulators

隨著生成模型在文本、圖像及影片內容生成領域的顛覆性進展,AI 社群開始期待下一波革命:能夠對人類、機器人與其他互動代理(agent)的行為做出回應並模擬真實體驗的模擬器(simulator)。這種模擬器不僅可以大幅促進娛樂產業中可控內容的創作,如遊戲與電影,還可支持機器人等具身智能實體在純模擬環境中的強化學習訓練,並使訓練成果可直接且零次調整(zero-shot)部署於真實世界。2024 年 ICLR 會議上,Yang 等人提出的《Learning Interactive Real-World Simulators》榮獲 Outstanding Paper,展示了建立「通用互動實境模擬器」(Universal Simulator, UniSim)的創新策略,突破了過往生成模型與模擬器在環境互動與真實感呈現的挑戰。

研究背景與動機

目前主流生成模型多訓練自網路大規模靜態數據,雖能生成高質量影像或影片,但缺乏依據用戶或代理行動即時生產互動經驗的能力。真實世界的互動場景複雜且多樣,內容包括物體的動態變化、多元的操作指令與行為、以及不同模態的感知反饋;現有模擬器通常針對特定領域,且依賴昂貴且難以彈性的物理引擎或工程調校。另一方面,手邊豐富的自然場域數據包含不同面向的互動訊息,如影像中豐富物體資訊、機器人資料庫中的稠密行動序列、導航錄像呈現多樣動作,這些資料若能有效整合,將有機會訓練出涵蓋廣泛場景與行為的通用模擬器。

本論文的動機即在於突破現有模擬技術的限制,嘗試融合異質的多模態數據,建構一個能從靜態圖像起點起,對應高階行動指令(如「開抽屜」)及低階連續控制命令,生成動態且高度真實的模擬結果。這樣的模擬器不僅能作為訓練平台,還有潛力推動跨領域智能體的多模態理解與生成能力。

核心方法與創新

論文提出的 UniSim 採用了生成式建模方法,特別是基於深度學習的條件生成模型,來捕捉複雜的時空動態演化過程。核心創新包括以下幾點:

  • 多維度數據整合:作者系統性整合來自不同領域的公開資料集,如圖像中大量的物件及靜態細節、機器人領域豐富的操作數據,以及導航任務中多樣的移動行為。這些資料在時間、動作以及語意指令等層面各有優勢,透過精心設計的條件框架,UniSim 能夠學習到從靜態場景到動態互動的映射,實現跨場景的泛化。
  • 多層次行為條件控制:UniSim 支持從高階語言指令(如文本描述「關上門」)到底層的細粒度控制訊號,形成一套可調節的動作生成機制。這種設計使模擬器不只是被動影像生成器,而是一個對外部指令敏感、具備複雜交互能力的智能模擬系統。
  • 跨任務多智能體學習:作者不僅訓練模型生成模擬結果,還展示了利用模擬器培訓高階視覺-語言政策(vision-language policy)和低階強化學習政策(reinforcement learning policy)的能力,並且這些政策能直接在真實環境中以零次調整應用,強化了模擬器作為訓練代理平臺的實用價值。

此外,論文還指出其他智能任務,例如影片字幕生成(video captioning),經由基於 UniSim 模擬經驗強化訓練,也能提升表現,多方面證明通用模擬器的跨領域潛力。

主要實驗結果

在綜合多領域複雜資料訓練下,UniSim 展現出強大的生成互動模擬能力,不僅在視覺品質上優於多數基線模型,在動作響應的多樣性與準確性上也超越傳統模型。具體實驗結果包括:

  • uniSim能依據文本指令從靜態場景生成連貫的動態過程,如門的開關、抽屜的拉合等,且生成畫面自然真實。
  • 透過模擬器訓練出的視覺-語言策略模型及強化學習策略,皆無需在真實世界額外微調,即可完成目標任務,顯示模擬器生成數據具備高度的真實域適應性。
  • 在影片字幕生成任務中,使用 UniSim 增強的訓練資料顯著提升了標準模型的描述準確度與語意連貫性,突顯模擬經驗的跨任務價值。

實驗中作者還提供了大量視頻示範,展示模型從靜態圖像出發,對指令和控制的即時反應,使整體系統更具說服力與實用性。

對 AI 領域的深遠影響

《Learning Interactive Real-World Simulators》這篇論文的貢獻在於打開了通用真實世界互動模擬的新方向。過去模擬器多侷限在特定場景或任務,且強烈依賴人為物理模型或有限數據標註。UniSim 顛覆了這一慣例,利用異質自然數據驅動的生成式學習,實現了一個可跨場景、跨任務並支持多種行動指令與感知模式的通用模擬框架。

這項技術將推動具身智能的發展,讓機器人與智能代理能在模擬環境中獲得更加貼近現實的訓練經驗,促進零次調整的現場部署。此外,該工作對多模態生成模型的應用與擴展具有啟發性,表明未來 AI 系統能更靈活地在視覺、語言、控制等子領域之間協同工作、互相增強。

更廣義來看,真實世界的互動模擬器將成為智慧型內容創作、教育訓練、虛擬實境、智慧家居控制等領域的重要基石,推動人機協同與智能體自我學習向前躍進。

總結來說,此篇論文不僅在技術層面展現突破性成果,還為 AI 探索更真實、更泛用的互動模擬器鋪設基石,被評為 ICLR 2024 的 Outstanding Paper 實至名歸。


論文資訊
📄 Learning Interactive Real-World Simulators
👥 Yang, Du, Ghasemipour, Tompson, Kaelbling, Schuurmans, Abbeel
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.06114

Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations

在近年深度學習快速發展的浪潮中,擴散模型(Diffusion Models)因其在圖像生成任務上的卓越表現,成為生成式模型研究的重點。這類模型透過將數據逐步加入隨機噪聲,然後學習反向「去噪」過程來還原原始數據,其生成影像的品質甚至可與GANs媲美,並展現出良好的多樣性。然而,在這樣的框架下,一個核心且具爭議性的問題浮現:當模型看似達成極佳生成效果時,它到底是「理解」了資料的內在分布,還是僅僅記憶了訓練資料?

本篇由Kadkhodaie等人合作發表於ICLR 2024並榮獲Outstanding Paper獎項的論文《Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations》,正是針對此一問題進行深入研究。作者嘗試解開為何擴散模型能在海量高維圖像空間中成功泛化,而非走向過度擬合或記憶訓練樣本的迷思。其發現不僅有助理解擴散模型的內部機制,也對生成模型的理論基礎帶來全新洞見。

研究背景與動機

擴散模型本質上是利用深度神經網路(DNN)來學習從被加噪聲狀態還原至原始資料的score function(即數據分佈的分數函數,gradient log probability)。由於圖像數據存在於極高維度空間,一般來說要想有效估計其分布且生成高品質樣本,是一件挑戰極大的事情,理論上可能遭遇「維度詛咒」。然而,擴散模型的表現卻反其道而行,顯示它們某種程度上「逃脫」了維度的限制。

另一方面,部分研究指出擴散模型在資料少時可能會呈現記憶訓練集圖像的現象,這使得科學界質疑這些模型是否真的捕捉到真實連續資料分佈,或只是對訓練樣本的複製。一旦確實存在過度擬合,則模型的泛用能力令人擔憂。

基於此,本論文的動機在於揭露擴散模型的泛化能力機制:深度神經網路經由何種內在結構或先驗偏好,使其能學習到可推廣的資料分布?只有弄清這層「黑盒」機制,擴散模型的發展與改進才能有理論指引。

核心方法與創新

本研究以理論與實驗相結合的方式深入分析擴散模型學習的「去噪函數」,特別聚焦於兩大創新方向:

  1. 跨數據子集的score function一致性驗證:
    作者訓練兩個神經網路分別在資料集的非重疊子集上,結果發現當訓練樣本足夠多時,兩者學出的score function幾乎相同,暗示模型能夠從有限資料中學習到接近資料真實分布的連續密度函數,而非純記憶。
  2. 基於幾何適應(geometry-adaptive)調諧的調和(harmonic)基底展開去噪函數:
    經分析後發現,去噪函數的本質是在一組根據圖像內容—如輪廓與均勻區域—自適應生成的振盪調和基底上做縮減(shrinkage)操作。這些基底天然捕捉圖像的幾何結構,使得去噪過程精準且有效。更重要的是,即便網路是在支持於較低維流形的非自然資料類別上訓練,也逼近類似的幾何調和基底,表明這是神經網路的先驗偏好,而非純粹依賴資料集的統計特性。

此外,當網路訓練於結構清晰、最佳基底已知為幾何調和基底的圖像類別上,其去噪性能接近理論最佳,體現了方法的理論意義與實用價值。

主要實驗結果

作者設計了多組實驗來驗證其假設與理論推論:

  • 透過比較兩個獨立訓練的網路在不同數據子集上的score function,發現兩者高度一致,佐證模型蘊含強泛化能力,而非簡單記憶。
  • 可視化分析去噪函數在自適應基底下的係數,發現明顯的縮減效應,並且基底本身呈現沿圖像幾何結構(輪廓、紋理等)的振盪模式,與傳統調和分析方法中發現的現象相似。
  • 在合成資料集(如流形支持的影像類別)與真實照片類別上的訓練結果皆呈現相同幾何-調和基底偏好,顯示該現象具有普適性。
  • 對比不同基底類型的去噪性能,在最佳理論基底條件下,網路幾乎達近似最優的恢復性能,印證該幾何適應調和表示對模型泛化的關鍵性。

對 AI 領域的深遠影響

本論文在生成模型,尤其是擴散模型理論理解方面帶來了突破性視角。首先,它透過實證展現當訓練資料充分時,深度神經網路並非淺層記憶資料集,而是學習出真正的連續資料分布,消解了關於擴散模型「過度擬合」的疑慮,加強了對其泛化能力的信心。

其次,作者揭示了深度去噪網路內部運作的基礎,即模型的先驗偏好是圍繞著與圖像幾何結構相適應的調和基底進行縮減操作。這種幾何適應調和表達不僅提供了一種新的特徵空間觀察角度,也為今後可解釋性的生成模型設計提供理論依據。

再者,該發現促使研究者重新思考如何在神經網路架構與訓練策略上加入或強化這類基於圖像幾何的先驗,以提升生成模型的表現及穩健性。未來有機會藉由引入明確的幾何調和分析,來設計更高效且可靠的生成方法。

綜合而言,這篇卓越論文透過理論與實驗交織出一幅清晰圖像,深入解碼了擴散模型泛化的本質。其研究成果不僅推動生成模型的理論前沿,也為實務應用中提升影像生成質量與穩定性提供了新視角,將對未來AI影像生成技術發展產生深遠而持久的影響。


論文資訊
📄 Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations
👥 Kadkhodaie, Guth, Simoncelli, Mallat
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.02557