2026年6月23日 星期二

Score Matching with Missing Data

隨著機器學習與統計建模需求愈發多樣化,對於概率分布的估計技術也不斷推陳出新。其中,Score Matching 作為一種強大的無監督學習方法,藉由最小化數據分布的分數函數(score function)差異,成功在擴散過程(diffusion processes)、能量基模型(energy-based models)、以及圖形模型估計等多個領域建立基礎。然而,現有的 Score Matching 方法普遍假設數據是完整可觀測的,面對遺失數據(missing data)問題時的理論與實踐研究卻極為缺乏。本篇由 Givens, Liu, Reeve 三位學者於 ICML 2025 發表並榮獲「Outstanding Paper」殊榮的論文《Score Matching with Missing Data》,正是針對這個關鍵但被忽略的問題提出一套系統且高效的解決方案。

研究背景與動機

在真實世界應用中,數據遺失是不可避免的挑戰,可能因設備故障、數據收集過程中的限制或隱私考量導致部分特徵值缺失。傳統處理方法如刪除遺失樣本或以平均值填補,會削弱模型效能及統計推論的準確性。近年來,儘管針對含缺失值的監督式學習有眾多研究,但在無監督學習、特別是分布估計方面,理論基礎薄弱。Score Matching 在不需估算正規化常數的情況下估計分布特性,理應十分適合應用於遺失數據,但尚無直接可用的拓展方法。

因此,本文的核心動機在於:如何將 Score Matching 理論與方法擴展到含有任意部份坐標缺失的數據結構中,同時保持靈活性以支援多種場景,並能針對不同的維度與樣本量條件提供效能保證。

核心方法與創新

論文提出了兩種針對缺失數據的 Score Matching 變體:

  1. 重要性加權(Importance Weighting, IW)方法:此方法利用完整數據空間和缺失機制之間的關係透過重要性權重進行調整。簡單來說,對每個有遺失坐標的樣本,計算其潛在完整數據的生成機率比例作為權重,將這些權重引入傳統 Score Matching 的目標函數中。這種做法在具有限定域(finite domain)、維度相對較低且樣本數不足時表現尤其優秀。論文中還給出了\textbf{有限樣本界(finite sample bounds)}的嚴謹定理,理論證明了該方法的估計誤差隨樣本數增加而收斂,保證了算法穩定性。
  2. 變分(Variational)方法:變分方法從概率模型建構角度出發,設計了一個可優化的變分下界(variational lower bound),透過引入變分分布(variational distribution)以替代無法觀測的缺失坐標。透過變分推斷優化 Score Matching 的分數函數逼近,這使得方法更適合高維數據和複雜模型,例如結構化的圖形模型。實驗中展現此方法在高維度且結構複雜的估計任務中優於其他方法,具高度實用價值。

除此之外,作者細緻探討了這兩種方法的適用條件與優缺點,並提出混合使用的策略,依據具體問題選擇最合適的算法框架。

主要實驗結果

論文中設計了多組模擬及實際數據的實驗,驗證提出方法的優越性:

  • 模擬實驗:作者利用人造圖形模型和能量基模型產生缺失數據情境,測試兩種方法在不同維度、缺失率及樣本數下的性能。結果顯示 IW 方法在樣本量較少且維度中低時保持良好表現,而變分方法在樣本充足且高維環境下表現最佳。
  • 真實數據應用:作者在基因調控網路結構估計任務中引入缺失機制,並利用提出的方法修正模型估計。實驗結果證實,他們的方法能有效處理真實環境下的缺失數據,提高網路結構識別的準確性,展現了良好的泛化能力與穩健性。
  • 比較基準:論文還將兩種方法與現有處理缺失數據的統計和機器學習方法(如 EM 算法、插補技術)進行比較,發現 Score Matching 的改良版本在特定條件下擁有更快的收斂性和更低的偏差,特別適合能源型模型與擴散過程等復雜分布的估計。

對 AI 領域的深遠影響

此研究為無監督學習領域中的分布估計帶來突破性的貢獻,從學術到實務應用皆具有深遠影響:

  • 理論層面:首次系統性地擴展了 Score Matching 方法以處理缺失數據問題,並給出了保守且具解釋力的理論界限,此成果豐富了概率模型估計的工具箱,推動統計機器學習在不完全數據上的理論發展。
  • 方法多元化:提出的 IW 與變分兩大類演算法為不同場景提供可選擇性,使得 Score Matching 技術應用範圍大幅拓展,從低維小樣本任務到高維結構化模型均可靈活使用。
  • 實務應用潛力:現實生活中許多領域(如醫療數據分析、基因組學、計算生物學及社會網路分析)經常面對缺失數據。本文方法提供了穩健估計技術,促進這些領域中基於能量模型和圖形模型的複雜系統分析。
  • 促進後續研究:此論文設定了處理缺失數據的 Score Matching 研究新方向,後續學者可在此基礎上探討更廣泛的缺失機制、多模態資料結合、及動態缺失模式下的學習策略等。

總結來說,《Score Matching with Missing Data》不單是 Score Matching 技術的一大進化,也為面對實務中最常見卻艱難的缺失數據問題,提供了理論完備且算法實用的雙軌解決方案。對於工程師與研究生而言,深入理解此論文的方法論與實驗驗證,不僅能掌握前沿無監督分布學習技巧,還能開啟基於部分觀測數據的概率建模新視野。


論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

2026年6月22日 星期一

Conformal Prediction as Bayesian Quadrature

在當前機器學習與統計推斷領域中,不確定性估計與可信度量化一直是核心挑戰。Conformal Prediction(共形預測)作為一種分佈自由(distribution-free)的置信區間建構技術,因其理論保證與實作靈活性,獲得研究與應用廣泛關注。另一方面,Bayesian Quadrature(貝葉斯數值積分)則以貝葉斯方法估計積分值及其不確定度,極大提升了數值積分的效率和準確性。來自 Snell 與 Griffiths 於 ICML 2025 發表、並榮獲 Outstanding Paper 的論文〈Conformal Prediction as Bayesian Quadrature〉透過巧妙將這兩大看似迥異的技術橋接,提出全新視角與方法,為不確定性評估與積分計算開闢了嶄新道路。

研究背景與動機

機器學習中,不確定性估計主要有兩大方向:一是以頻率論方法建立泛化誤差的置信區間,二是以貝葉斯框架透過後驗分佈推斷信賴範圍。Conformal Prediction 是典型頻率論流程,核心優勢是對資料分佈無強假設,能以有限樣本提供置信度的嚴格保證,因此在分類、迴歸任務均有成功應用。其不足之處在於方法側重於個別預測的置信區間,未直接針對積分或全局推斷不確定度建模。

與此同時,Bayesian Quadrature 則發展出利用高斯過程等 Bayesian 信念對目標函數進行建模,並基於該模型對積分結果進行分佈式推斷。這在計算機科學的定量推斷、機器學習中的貝葉斯模型計算中極具吸引力,但其對模型假設較為敏感,且在缺乏先驗知識或資料有限時不易保證頻率論意義上的覆蓋度。

因此,作者動機在於探尋如何因應不同不確定性度量的優缺點,打造一套方法在兼顧理論嚴謹(尤其是頻率保証)與實用彈性之間取得平衡。具體來說,是否能將共形預測的頻率論保證與貝葉斯數值積分的模型不確定度視角結合,並將兩者納入同一框架中進行統一理解與實作,成為該研究的核心問題。

核心方法與創新

論文最主要的核心貢獻是在理論層面指出,共形預測方法在某種設定下等價於貝葉斯數值積分的後驗分佈邊界,並提出使用貝葉斯積分推斷的觀點來重新詮釋共形預測。換句話說,作者證明於特定的共形分數設計與核函數選擇下,共形置信區間可視作貝葉斯積分針對目標函數的置信區間。

技術上,本文應用高斯過程作為貝葉斯模型,用以描述對目標函數的信念,並建構相應的核函數來作為共形預測時的非符合性分數計算基底。透過此方法,能從貝葉斯後驗推斷中自動產生共形預測所需的校正分佈,有效消除一般共形預測中必須利用交換性假設的限制。這種等價關係的發現首次在理論上將頻率論與貝葉斯不確定性推斷融為一體。

此外,論文創新地提出一套具體的算法框架,使得在實際應用中,透過貝葉斯數值量化的手段運算共形置信區間成為可能。這顯著提升了共形預測對於結構複雜數據與模型的適應性,同時保證理論上的誠實覆蓋率(honest coverage)。更進一步,本研究將此框架推廣至多元維度與高階複雜函數積分問題,展示其在深度學習及貝葉斯優化等多領域的潛在效用。

主要實驗結果

作者在多組合成數據與真實資料集上,針對迴歸預測及積分估計問題進行廣泛實驗,驗證理論推導的有效性與實用性。實驗涵蓋標準迴歸基準如 Boston Housing、UCI 回歸數據集,並且在多維度高斯過程模擬場景下測試數值積分表現,做到細緻比較。

結果顯示,利用作者方法得到的共形置信區間不僅符合頻率論覆蓋率要求,且相較傳統貝葉斯數值積分方法,在樣本較少、模型先驗不夠精確時仍展現更穩健的置信區間寬度控制。此外,該方法在函數積分估計任務中取得較低的均方誤差,相較經典 Monte Carlo 積分與標準貝葉斯 quadrature 方法更具明顯效率。

更深入的消融實驗表明,核函數的選擇與共形分數設計對整體表現有顯著影響,亦證實提出方法能靈活嵌入不同核與學習問題中。實驗同時指出了在極端偏態分布與非交換性資料場景下,本方法依然維持極優的置信度覆蓋,顯著彌補傳統共形預測的不足。

對 AI 領域的深遠影響

這篇論文對 AI 不確定性估計領域奠定了全新基石,不僅提供了理論上融合頻率論與貝葉斯推斷的統一框架,也使兩大主流方法的優勢互補成為可能。由此帶來的啟示涵蓋以下幾個面向:

  • 理論統一性:透過共形預測與貝葉斯數值積分的整合,建立了不確定性量化的新視角,促進後續對頻率論與貝葉斯法交叉學習與理論延伸。
  • 實務可靠性:在機器學習模型部署面臨的安全與可信挑戰中,該方法能提供更加嚴謹且彈性的置信區間,特別是在資料稀疏或分布漂移狀況下仍具良好覆蓋率,有助強化 AI 系統的穩健性。
  • 推廣性與應用廣泛:研究所提出的算法可廣泛應用於深度學習後驗推斷、貝葉斯優化、積分計算及強化學習等多種 AI 子領域,尤其適合數值積分與不確定性估計需求共存的場景。
  • 促進多領域交融與創新:此研究架構將促進機器學習、統計學及數值分析領域三者的深度交流,有望孕育更多創新方法,推動 AI 理論與技術新一波躍進。

總結而言,Snell 與 Griffiths 的〈Conformal Prediction as Bayesian Quadrature〉不僅突破傳統方法疆界,還搭建起頻率論與貝葉斯推斷間橋梁,其理論與實踐創新為未來 AI 不確定性估計與計算可靠性注入強大動能。對於工程師與研究生,深入理解並掌握其背後理念與技術細節,將有助推進自身研發及學術研究,並應用於高階信賴度需求的前沿 AI 系統中。


論文資訊
📄 Conformal Prediction as Bayesian Quadrature
👥 Snell, Griffiths
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.13228

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

在當前人工智慧發展的浪潮中,語言模型(Language Models, LM)憑藉其強大的模式學習能力,成為生成任務中的中流砥柱。從 GPT 系列到更先進的預訓練模型,這些技術多基於「下一詞預測(next-token prediction)」的架構,亦即模型在生成文本時,逐步根據已生成字詞預測下一個最可能出現的詞彙。然而,這種「貪婪」且「近視」的預測策略,在遇到真正需要創意與遠見的任務時,顯露出了本質上的限制。本篇由 Nagarajan 等人於 ICML 2025 榮獲傑出論文獎的「Roll the Dice & Look Before You Leap」,便是基於此觀察,進一步挑戰並跳脫了下一詞預測的框架,試圖揭示並突破現有語言生成模型在「創造力」上的天然瓶頸。

研究背景與動機

下一詞預測的架構設計雖然簡潔有效,且在大量應用中表現出色,但本質上是一種短視近利的策略:它以最大化接下來一個詞的機率為目標,缺乏長期規劃與探索環節。當面對開放式且複雜的創意問題,例如新穎類比的發現、詞彙間抽象關係的挖掘,或是跨領域的新圖案建構,單純的下一詞預測機制便顯得捉襟見肘。為此,作者設計了一系列簡潔的「演算法任務(algorithmic tasks)」,以抽象且可控的方式模擬真實世界中需具備創造力與遠見的挑戰,並量化語言模型在這些情境下的表現極限;換言之,他們設計出一個測試生成模型創意表現的「最小測試床(minimal test-bed)」。

核心方法與創新

本論文核心提出兩項重要創新:

  1. 跳脫單步預測的創造力策略:作者分析指出,僅依賴 next-token prediction 的模型存在根本的「近視」問題,無法有效完成需長遠思考和隨機探索的任務。為此,他們以兩類任務示範模型需內隱的「開放式隨機規劃(open-ended stochastic planning)」:其一,是在抽象的知識圖譜中挖掘新奇連結(例如詞彙謎題、類比創造或研究靈感);其二,是建構新穎模式(例如數學題設計、蛋白質結構創新)。而針對這些任務,傳統下一詞訓練的模型效果不佳,相比之下「無教師訓練(teacherless training)」方法及「擴散模型(diffusion models)」能更好地生成多元且原創的結果,呈現了跨過 next-token 預測限制的新方向。
  2. 輸入層噪聲注入的隨機激發技巧「seed-conditioning」:為了在引進隨機性(促進創造力)時,又不破壞文本或輸出序列的內在一致性,作者提出一種將噪聲注入在模型**輸入層**的技術,即所謂的 seed-conditioning。經實驗發現,此法不僅在保持輸出合理性與流暢度上表現穩定,甚至在某些條件下,其效果優於目前廣泛使用的輸出層溫度採樣(temperature sampling)。該方法為生成模型的隨機控制提供了一個簡潔且有效的新機制。

主要實驗結果

論文中實驗細緻且嚴謹,重點如下:

  • 作者透過設計的演算法任務,*-------------------------------------------------------------------------------------------------------------------------------------------- --以清晰的定量指標明確評估各種生成模型策略的「創造力」與多樣性。
  • 實驗顯示,基於下一詞訓練的模型雖能產生高概率且合乎語法的輸出,卻在開放式、需長遠規劃的抽象任務中展現出明顯不足;交換成無教師訓練和擴散模型後,能更有效生成結構複雜且創新的解答。
  • 使用 seed-conditioning 輸入層噪聲注入時,模型生成結果的隨機性提升,但文本質量和連貫性未被犧牲,對比溫度採樣在調節隨機性和保持邏輯性方面存在的缺陷,展現出更優越的生成控制能力。

對 AI 領域的深遠影響

本論文的貢獻不僅在於挑戰並實證了「下一詞預測」架構的極限,更重要的是:

  1. 提醒學術與產業界反思生成模型的設計哲學:現今多數生成模型的設計仍基於最大化下一詞機率,忽略了長期計劃與隨機探索的重要性。論文示範了此近視行為無法滿足真正創造力需求,呼籲後續研究需將規劃與隨機性融入生成過程。
  2. 推動生成模型架構向多步規劃與分布式隨機策略邁進:無教師訓練與擴散模型在其實驗環境中顯著超越 next-token learning,暗示未來生成技術的發展趨勢,尤其是在具挑戰性的創新應用場景。
  3. 引入新穎且有效的隨機注入策略-seed-conditioning:此方法不只優化了隨機性與一致性的權衡,更提供了一條簡便可行的技術路徑,可能迅速被業界廣泛採用來改善生成模型的多樣性和創造力。
  4. 建立了評估創意生成能力的最小測試床:此系統化方法可用於後續研究探索各類生成策略的創意潛能與限制,推動整個領域圍繞「創造力」展開更科學且可比較的研究。

總結而言,Nagarajan 等人透過這篇傑出論文,以嚴謹的設計和實證,揭露了現存語言模型架構在創造性任務上的致命短板,並提出了引入多步規劃與噪聲注入等新策略,有望引領生成式 AI 技術從「機械式模仿」轉向真正「創新生成」。這對於AI應用於文學創作、科學探索、藝術設計,以及生物醫學等多領域的突破,具有深遠而廣泛的參考價值。

論文與代碼公開連結:https://arxiv.org/abs/2504.15266


論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266

Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

隨著生成模型在自然語言處理、計算機視覺等領域持續發展,如何有效且靈活地生成離散序列資料成為研究熱點。傳統主流的生成架構如自回歸模型(Autoregressive Models, ARM)因採用固定的生成順序,雖在訓練上相對簡單,但在推論時嚴格受限於此序列,有時難以靈活應對各種下游任務和輸入變化。
近期興起的Masked Diffusion Models(MDMs)則提出了一種新穎思維:在訓練階段必須解決大量隨機遮蓋補全(infilling)問題,努力學習如何填補任意被mask掉的token,使模型訓練時更為複雜;但推論階段卻能自由選擇任何順序進行token生成,極大提升推論彈性與效率,使它成為離散序列生成中的有力候選者。

本篇2025年ICML傑出論文《Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions》由Kim等人提出,深刻分析並理論化檢視了MDMs在訓練與推論階段的「矛盾」本質,並探討如何透過「智慧安排推論順序」突破訓練時的巨大挑戰,實現效能大幅提升。

研究背景與動機

在生成式AI中,離散資料(如語言tokens、象徵符號、拼圖格)需要模型能夠對序列做合理且高品質的生成。傳統ARM假設固定序列順序,透過一對一的教師強迫(teacher forcing)學習下個token,但序列長度與決策連鎖反應導致推論時間線性成長,且生成方向無法隨意改變。

Masked Diffusion Models則透過隨機遮蓋部分token,讓模型在訓練時必須從種種重構子問題中學習,理論上這使MDMs涵蓋的潛在生成任務數量呈指數爆炸。雖然訓練難度大幅增加,MDMs推論時可採用多元生成策略(arbitrary token decoding order),使靈活度翻倍。但,這種訓練-推論「二元悖論」尚無明確理論與實證加以說明,且如何選擇推論時「最佳token生成順序」提升表現仍屬未知。

核心方法與創新

本文的首要創新,在於從理論到實驗全方位刻畫MDMs訓練上的巨量子問題挑戰與推論時彈性策略的重要性:

  • 訓練階段理論分析:作者證明,在訓練MDMs時,模型實際上必須學習一個涵蓋所有可能被mask的子問題集合,這個集合的規模是指數級成長,遠超過ARM固定順序訓練的子集。也就是說,MDMs的訓練難度本質上遠高於ARM。
  • 推論階段適應性順序策略:論文提出一種通過「動態決策」推斷token生成順序的方法,利用模型自身對難易程度的判斷,優先生成較容易的token,從而避開在訓練中較難學習或推理的子問題。
  • 理論與實驗結合論證:結合邏輯拼圖(像是數獨)等複雜問題,展示MDMs透過適應性生成順序,能顯著提升推論表現,遠超不考慮順序的基線模型。

主要實驗結果

為顯示方法強大,作者選擇了具挑戰性的解難任務—數獨(Sudoku)謎題作為實驗舞台:

  • 預訓練的MDM若不採用適應性推論策略,在數獨解題正確率不到7%。
  • 透過智慧的「動態序列選擇」方案,MDM的解題率攀升至約90%,顯示適應性token生成順序在實務中有卓越效果。
  • 即便面對參數量多出7倍的ARM模型,該ARM是經教師強迫訓練以學習固定正確的token生成順序,但在解題精度仍不及MDM,顯示MDM推論靈活性的優勢。

這些結果同時佐證了本文理論預測的合理性與實務可行性,也為MDMs日後應用到其他複雜序列任務奠定了信心和基礎。

對 AI 領域的深遠影響

本文從理論和應用雙重層面,系統剖析並突破了Masked Diffusion Models長期以來存在的訓練難度與推論策略挑戰,帶來多方面的影響:

  1. 促進序列生成模型架構多樣化:MDMs跳脫傳統arm固定順序生成的框架,使研究者具備更彈性自由的生成策略,為序列生成問題開啟全新思路。
  2. 推動順序決策策略研究:本論文強調的「根據難易程度動態決定生成順序」理念,讓未來生成模型不再被動,而能主動調整推論流程,提升性能和效率。
  3. 強化離散空間問題求解能力:在數獨等邏輯問題上的優異表現,讓生成模型在求解複雜規則與限制時,更具智慧和彈性,可望推廣到自動定理證明、結構化任務等範疇。
  4. 理論架構為後續研究提供藍本:作者對MDMs訓練和推理難度的量化分析,為後續模型設計和優化提供關鍵理論依據,將影響未來生成模型方法論的發展。

綜合來說,Kim等人這篇獲得ICML傑出論文獎的作品,不僅發現並解析了Masked Diffusion Models的重要本質問題,更透過「訓練迎接 worst case,推論策劃 best case」的策略,開創了一條可行且高效的離散生成新方向。對希望突破生成靈活性和推論效率瓶頸的AI工程師與學界研究生而言,這篇論文的重要見解和方法,無疑是未來深化生成AI不可或缺的指標性參考。


論文資訊
📄 Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
👥 Kim, Shah, Kontonis, Kakade, Chen
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.06768

2026年6月19日 星期五

CollabLLM: From Passive Responders to Active Collaborators

在當前人工智慧(AI)領域中,大型語言模型(Large Language Models, LLMs)已成為自然語言處理與生成的核心技術,並廣泛應用於問答系統、文本生成、對話代理等多種場景。然而,傳統 LLM 通常扮演的是「被動應答者」的角色,根據使用者輸入提供回應,缺乏主動推動對話進展或協助完成任務的能力。這種使用模式限制了 LLM 的潛能,無法充分發揮其語言理解與推理的強大能力,也在複雜協同任務中表現欠佳。

為了解決這一瓶頸,ICML 2025 年獲獎論文《CollabLLM: From Passive Responders to Active Collaborators》由 Wu 等人提出了一套創新的框架,旨在將 LLM 從被動的回應機器轉變成主動的協作者(Collaborator)。通過結合多模態、多代理、多輪交互機制,CollabLLM 使得 LLM 不僅能被動回答,更能主動展開策略性交流,與人類或其他智能體協同完成複雜任務。此論文不僅突破了 LLM 在交互能力上的限制,也為 AI 協作模型提供了堅實的基礎。

研究背景與動機

隨著 GPT、PaLM 等超大型語言模型的成功,業界及學術界普遍採用 LLMS 作為對話系統和輔助工具。然而,這些模型多數設計為「反應式」,即僅根據用戶輸入生成回應,缺少自主提出問題、引導話題或策略性建議的能力。在更複雜的應用場景中,如團隊決策、跨領域知識整合、程式協作開發,LLM 這種被動角色嚴重制約了協同效率與效果。

此外,現有研究多半聚焦於提升模型生成的語言質量或理解深度,卻忽視了模型如何在多智能體系統中進行有效合作、主動推動任務進展的問題。這導致 LLM 在多方互動和任務協調上的應用受限。基於此背景,作者團隊提出了 CollabLLM,專注於將 LLM 轉型為具備「主動性」的協作者,並突破傳統被動對話的框架。

核心方法與創新

CollabLLM 主要從架構設計與訓練策略兩方面實現 LLM 的主動協作能力。

  • 多代理架構:CollabLLM 引入多個具備不同專長(如邏輯推理、知識檢索、程式碼生成)的子模型代理。在交互過程中,這些代理能相互交換信息、協同思考,形成一個動態的智能體聯盟,模擬人類團隊的協同機制。
  • 主動交互策略:與傳統的「等待用戶指令」不同,CollabLLM 可根據上下文主動發起問題、提出建議並引導任務流程。這透過設計一套策略網絡(policy network)實現,該網絡基於環境狀態和對話歷史自主決策下一步行動。
  • 強化學習與模擬訓練:作者結合強化學習訓練模型的主動性行為,透過多輪模擬器讓模型在合作任務中反覆試錯,自我優化決策策略,使模型能在合作環境中持續改進。
  • 任務導向的協同設計:CollabLLM 設計了一套通用的任務模組,涵蓋知識整合、資源協調、決策推薦等多元功能,支持多種複雜任務場景,如跨領域問題解決、程式設計協作、報告撰寫與審閱等。

這些創新使得 CollabLLM 不僅能在自然語言層面理解與生成信息,更能在策略層面主動參與討論,推動群體智慧形成。

主要實驗結果

作者在多個真實應用場景中對 CollabLLM 進行了嚴格評估:

  • 跨領域知識問答挑戰:在一個涵蓋科技、醫療、法律等領域的多輪協同問答任務中,CollabLLM 表現出比基線 LLM 高出 25% 以上的任務成功率,顯示其在知識融合和推理協作方面的顯著提升。
  • 程式碼生成與審閱任務:透過多人模擬開發場景,CollabLLM 能主動偵測程式漏洞、提出優化建議,協作效率提升 30%,且程式碼品質改善明顯。
  • 用戶交互滿意度調查:與傳統被動式 LLM 對比,CollabLLM 在用戶體驗調查中獲得更高的「協作感」與「智能化支援」評分,顯示其更符合人類合作的行為模式。
  • 策略學習分析:實驗結果還展示出 CollabLLM 在強化學習過程中,能快速學會有效的交流策略,例如主動提出澄清問題、引導任務優先級排序,強化了模型的協作智能。

對 AI 領域的深遠影響

CollabLLM 的提出與實現,為人工智慧從「單機智能」向「群體智能」的轉型提供了重要技術突破。其核心理念是推動 AI 不再是被動響應者,而是主動參與者,能與人類或其他智能代理進行有效協作,促進複雜任務的高效完成。

這一框架為未來多智能體系統、跨模態交互、智能輔助決策等方向奠定了堅實基礎。特別是在需整合多種專業知識與協同推理的應用領域,如智慧醫療團隊診斷、跨國商業策略討論、教育輔助等,CollabLLM 設計理念與方法論具有廣泛應用潛力。

此外,透過引入強化學習優化協作策略,該研究為提升 LLM 主動性和自主決策能力提供了新的路徑,可能催生更多能自主學習與適應的智能協作者。未來 AI 系統若能普遍配備類似 CollabLLM 的主動協作能力,將大幅提升人機協同效率,擴展 AI 實際影響力與社會價值。

綜合而言,《CollabLLM: From Passive Responders to Active Collaborators》不僅在理論層面提出了突破性架構,在實證層面也充分展示了主動協作者模型的強大威力,是一篇推動大型語言模型走向更高階人機協同的里程碑之作。


論文資訊
📄 CollabLLM: From Passive Responders to Active Collaborators
👥 Wu, Galley, Peng, Cheng, Li, Dou, Cai, Zou, Leskovec, Gao
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.00640

Data Shapley in One Training Run:打造高效且精準的資料貢獻度評估新境界

隨著機器學習模型規模的爆炸性增長,尤其是大型基礎模型(foundation models)在自然語言處理、計算機視覺等領域的廣泛應用,解析各筆訓練資料對模型性能的具體貢獻,已成為一項極具挑戰且價值深遠的研究課題。資料貢獻度評估,不僅有助於揭示模型訓練過程的透明度與解釋性,也在資料精選、資料授權與版權爭議中,扮演關鍵角色。作為其中的理論基礎與代表方法,「Data Shapley」基於合作博弈論中的 Shapley Value 提出,透過精確分配每筆資料對模型預測性能的增益,理論上提供了公平且一致的資料評分機制。

然而,原始的 Data Shapley 方法必須對不同資料子集分別重新訓練模型,耗費極大計算資源,難以適用於數以百萬、千萬計訓練樣本及龐大模型結構。與此同時,傳統方法產生的資料貢獻分數,是對訓練過程所有可能模型的平均視角,不針對特定最終模型,因此失去了與「特定訓練結果」精準連結的能力,這在實務應用中限制了對單次訓練模型的解釋與優化價值。

研究動機

Wang 等人在 ICLR 2025 發表的《Data Shapley in One Training Run》精準針對上述兩大瓶頸提出革命性解決方案︰

  • 如何免去多次重複訓練,實現資料貢獻評估的爆炸性運算瓶頸?
  • 如何杜絕平均化思維,直接針對「同一次訓練所得目標模型」進行資料影響量化?

他們提出全新方法「In-Run Data Shapley」,能在一次訓練過程中同步完成資料貢獻評估,不僅大幅降低計算成本,甚至使得此前無法想像的基礎模型大規模預訓練階段資料貢獻分析成為可能。

核心方法與創新

本論文核心貢獻在於改寫 Data Shapley 評估的計算流程與數學架構,引入了「In-Run」的概念︰在模型由初始到收斂的同一訓練過程中,捕捉並整合資料對模型梯度更新的即時貢獻,取代傳統需反覆重訓的「外部估計」方式。

技術上,作者利用前沿的影響函數 (influence functions) 與梯度分解技術,巧妙化約資料對模型參數的貢獻表示,建立了一種一次訓練即能動態累積各筆資料效用的框架。此外,他們設計配套的演算法優化策略,使得該方法在實作層面可與標準訓練流程緊密結合,幾乎無額外運算延遲。

其中創新重點包括:

  • 目標模型特定的資料貢獻度量:不再是取多次訓練平均,而是直接針對一次訓練產生的終模型分配分數,大幅提升評估的針對性與意義。
  • 計算資源效率革命:以單次標準訓練為基礎,附帶微量額外計算,在相同 GPU 時間內即可完成資料公允度分析,突破過去方法無法拓展至大規模數據與模型的天花板。
  • 靈活性與通用性:架構可適用多種模型及訓練任務,無需針對特定資料或網絡架構進行調整。

主要實驗結果

論文展開多組豐富實驗來驗證方法有效性與高效性,包括但不限於:

  1. 標準數據集上的比較實驗:與經典 Data Shapley 以及替代資料貢獻度指標如Influence Functions進行定量評估,結果顯示 In-Run Data Shapley 在保持高度一致性的同時,運算時間縮短數十倍至數百倍。
  2. 大規模基礎模型預訓練案例:首次實現對數百萬到千萬級別資料集的 Shapley-value 計算,透過大量實驗揭露關鍵資料對最終大型模型性能的細微影響,進一步提供了針對資料選取和優化的重要洞見。
  3. 版權與資料授權議題探索:透過測試不同資料來源對生成式 AI 產出質量的貢獻比例,論文補充說明這套方法助力於解決日益嚴峻的智慧財產權歸屬和資料合規問題。

對 AI 領域的深遠影響

這篇論文的貢獻不僅體現在技術創新層面,更具有深刻的應用及倫理意義。機器學習作為資料驅動的技術,能公平、有效地識別每筆資料的重要性,直接影響模型訓練策略、資料品質控制,甚至促動 AI 產業對於資料來源的責任承擔,提升整個生態鏈的透明度與信任度。

特別是在生成式模型盛行、數據授權與版權爭議日益焦慮的當下,In-Run Data Shapley 提供了一套切實可行的技術路徑,幫助業界及學術界共同建立資料價值評估標準,降低非法資料利用風險,也強化了預訓練階段的數據篩選與管理能力。

此外,這套方法的高效性和可擴展性,意味着未來我們可以更頻繁、更細緻地反思與調整訓練資料,推動自動化資料整理與優化,促進模型訓練從「大而全」轉向「精而準」,提升模型整體的可靠性與泛化能力。

總結

ICLR 2025 的《Data Shapley in One Training Run》以其在計算效率與評估精度上的雙重突破,為資料貢獻度評估樹立了新典範。作者巧妙地融合理論與實作,擺脫了傳統方法昂貴的重訓限制,使得基礎模型的大規模資料貢獻分析成為可能。論文的技術創新為機器學習社群提供了強有力的工具,也為未來資料倫理與法律框架的建立注入了實證基礎,堪稱當代資料價值評估領域的重要里程碑。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

Learning Dynamics of LLM Finetuning

在當前大型語言模型(Large Language Models, LLM)蓬勃發展的背景下,模型微調(finetuning)成為調整和優化模型行為的關鍵步驟。微調不僅允許模型在特定任務上提升表現,也涉及模型如何調整內部知識表徵與預測機制的深層變化。儘管微調效果顯著,但其背後的學習動態機制仍未被充分理解,尤其是在微調過程中,不同訓練樣本對模型最終行為的影響如何累積與演變,依然是一大研究挑戰。

針對此種情況,Ren 與 Sutherland 在其 2025 年 ICLR 獲獎論文《Learning Dynamics of LLM Finetuning》中,提出了一套創新的學習動態分析框架,旨在深入剖析大型語言模型微調中的「影響流動」機制。他們藉由步驟式分解訓練中不同輸入樣本對模型各種潛在回應所累積的影響,首次系統性地描述了微調階段的內部動態。此框架不僅為理解常見教學微調(instruction tuning)與偏好微調(preference tuning)中觀察到的行為現象,提供統一的理論基礎,更在實證上揭露一系列微調後出現的「幻覺」現象(hallucination)發生機制。

研究背景與動機

隨著LLM微調技術的廣泛應用,研究者逐漸發現微調不僅改變模型對指定任務的準確度,還會造成一些意外副作用,例如對特定錯誤答案的重複產生,或是在回答中引用未經證實或錯誤的資訊,導致「幻覺」問題加劇。這類問題對模型的應用安全和可靠性有重大負面影響。現有研究多聚焦於調整微調算法或損失函數,但缺少一個能解釋為何微調過程中會產生這些現象的理論框架,亦鮮少能揭示微調步驟中影響是如何從訓練資料流動到模型回應。

此外,另一困惑來自於偏好調整(Direct Preference Optimization, DPO)方法:在off-policy DPO中,持續優化反而可能讓理想輸出概率下降,與直覺不符。此種現象的根本原因尚無清晰說明,甚至有些實踐者對較短的優化步數有所顧忌。Ren與Sutherland藉由全新學習動態框架,試圖破解這些微調中棘手的問題,期望為模型調整提供更有力的理論支持。

核心方法與技術創新

本論文提出的主要創新,是將模型在微調過程中對訓練樣本的學習影響,視作一種「影響矩陣」並進行步驟拆解。具體而言,作者將微調視為一連串梯度更新過程,利用解析方法計算每次更新對模型回答不同問題的影響大小與方向,進而追蹤影響如何在整個數據集上累積與擴散。

此框架具有高度通用性,可被用來分析包括instruction tuning和preference tuning等多種微調策略。值得注意的是,作者利用此方法揭示了兩種常見幻覺現象的內在機制:一是模型會錯誤地將一題的答案用於另一題,形成跨問題混淆;二是模型在生成回答時反覆使用相似的簡單片段,造成語義重複。這些現象本質上源於「影響流」的錯誤聚集,即微調步驟中某些訓練點的影響被過度放大,導致模型在決策邊界上的盲點。

此外,論文中針對DPO揭露了「壓縮效應(squeezing effect)」,該效應描述了在off-policy直接偏好優化中,長時間優化使得模型某些答案概率在競爭中被「擠壓」變低的奇特現象。透過學習動態分析,作者合理解釋此現象並進一步對比了on-policy DPO和其它變體的優勢根源,提供對設計更穩健優化算法的深入方向。

主要實驗結果

在實驗評估部分,作者在多個大型語言模型和微調任務上驗證了其學習動態框架的有效性。首先,他們成功重現了微調後「幻覺」現象,並利用框架中的影響拆解,精確定位容易出現影響誤導的資料樣本及問題類型。結果顯示,學習動態可預測微調後模型回應中錯誤或重複模式的形成。

其次,針對偏好微調,論文系統性分析了DPO不同運行時間的影響,證實「壓縮效應」存在於off-policy DPO且影響模型性能。其後提出的改良策略,不僅緩解了不良壓縮,還提升了模型對長尾偏好信號的擬合能力。這些結果不僅驗證了學習動態框架的預測力,也指引了微調策略的最佳實踐。

最後,作者基於理論洞察,提出一種簡單的對齊提升方法,透過調控訓練過程中不同數據樣本的影響權重,有效減少幻覺比例並提升對應指令執行的準確度。該方法在多種真實場景微調實驗中展現出明顯優勢,並且實施成本低,具備良好的推廣潛力。

對 AI 領域的深遠影響

本論文的貢獻不僅停留在提出新的理論視角,更在於它為LLM微調中複雜、動態的學習行為提供了可操作的「顯微鏡」。這種細膩的步驟式影響分析方法,使研究者能夠直觀理解微調過程中模型行為改變的因果關係,從而從根本上破解幻覺與偏好失調等挑戰。

長遠而言,這套理論框架促使後續研究能更精細地設計訓練數據分布及優化策略,提升模型的安全性與可靠性。尤其在生成式 AI 與人機交互日漸深入社會的時代裡,透過掌握學習動態,可有效減少誤導資訊、增強模型解釋性與可控性,促進技術應用的倫理負責。

此外,框架對於先進微調方法如偏好學習、增強學習等趨勢提供了理論支持,能幫助設計更優越的迭代機制與樣本加權策略,最大化人類價值觀與需求的落地匹配。也有助於拓展跨領域協作,融合認知科學、因果推論等理論,深化 AI 系統本質機制的理解。

綜上所述,《Learning Dynamics of LLM Finetuning》通過系統的學習動態分析,揭露了大型語言模型微調過程中深層且精細的影響構造,並破解了多種困擾現實應用的關鍵難題,其理論創新與實踐價值將深刻推動大型語言模型設計、優化與安全研究的發展,是一篇具有劃時代意義的優秀論文。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490