2026年4月19日 星期日

The Value of Prediction in Identifying the Worst-Off

隨著人工智慧與機器學習技術日益成熟並廣泛應用於公共政策領域,政府機關開始借助這些技術來識別及支援社會中最弱勢、最需要幫助的群體。不同於過去強調提升整體效益或預測準確性的研究,本篇由Fischer Abaigar、Kern與Perdomo於ICML 2025提出的《The Value of Prediction in Identifying the Worst-Off》論文,聚焦在預測模型於社會福利分配上的價值,特別是在追求公平性和改善弱勢群體狀況的政策環境中,其效用與限制。

研究背景與動機

長期失業、健康弱勢、貧困等社會問題,往往需要政府提供精準且有效的協助資源。傳統上,決策者可能根據經驗或較簡單的指標來判定援助對象,但面對龐大且多維的數據,機器學習憑藉更高的預測能力,理論上能助政策更精確地定位「最弱勢」的個體。

然而,提升預測準確性是否必然帶來更好的社會福利?另外,當政策目標是公平性而非僅僅是整體效益最大化時,預測的價值又如何衡量?此外,政策除了可透過提升預測技術來改進外,擴充行政管理能力也是一條可行路徑,它們在實踐上有何不同的影響?這些問題是本文動機所在,作者希望以嚴謹的數理分析結合實證驗證,深入探討預測模型在「辨識最弱勢」的政策系統中的真正價值。

核心方法與創新

本文的核心貢獻在於建立一個整合數理模型與實際政策情境的分析框架,結合理論與實證兩方面,探討機器學習在「辨識最弱勢」任務中的角色與效果。

  • 數理模型設計:作者構建一個決策者面對有限資源分配的數理模型,模型中一方是對弱勢群體的福利函數定義,另一方是機器學習模型的預測能力及行政資源限制。透過此模型,能量化預測提升與行政效率擴張兩者對弱勢群體福利的邊際貢獻。
  • 政策模擬與對比分析:模型中考慮多重真實世界挑戰,包括預測誤差、資源限制與標籤偏誤,從而能模擬在不同政策組合下福利分配的變化。此設計可直觀呈現出提升預測品質與增強行政能力各自的效果及交互作用,並分析何種策略在何種狀況下更具優勢。
  • 實證研究:以德國長期失業者援助計畫為案例,作者利用德國政府公開的失業數據,實際建構預測模型並結合行政流程,評估在現實情境下該框架的適用性與表現,並進一步驗證數理模型的理論預測。
  • 公平性考量:論文中特別關注如何在弱勢群體識別中融入公平指標,分析預測模型是否可能產生偏差,進而傷害政策目標。透過數據驅動的公平性衡量方法,提出調整策略,保障弱勢者實際受到應有的支持。

主要實驗結果

研究結果揭示了多項關鍵發現:

  • 提升機器學習模型的預測能力確實能更有效定位真實的最弱勢者,進而在資源有限的情況下提升政策的福利回報率。
  • 然而,單純提高預測準確度存在邊際遞減效應,在特定條件下,增加行政資源(如更多人員、改善服務流程)對於扶助效果的提升甚至超過改進預測模型本身。
  • 在公平性維度,若不加留意,預測模型可能因訓練數據偏差而忽略某些弱勢子群,使得政策效益不均。作者提出的公平調整方法有效緩解此風險,提升政策的包容性。
  • 實證部分顯示德國長期失業者案例中,結合改良後預測模型與行政流程優化,能大幅提高最弱勢者的辨識率與援助成功率。

對 AI 領域的深遠影響

這篇論文在 AI 技術應用於公共政策領域具有多方面的深遠意義:

  • 超越準確率的價值評估:論文強調,機器學習模型在實際應用時,評估指標不能僅限於準確率、AUC等傳統衡量標準,而應結合政策目標與現實限制,進行福利與公平層面的綜合評估,這為 AI 在社會科學及政策研究中提供了新的視角和方法論。
  • 促進跨領域合作:結合經濟學的福利最大化理論、政策科學以及機器學習,使得 AI 研究不再局限於技術層面,而是深化至實際社會影響力的衡量,推動 AI 與社會科學的深度融合。
  • 政策設計的理論指導與實務工具:研究所提出的分析框架與數據驅動調整方法,對政府及非營利組織設計公平且有效的援助方案提供實用參考,促使 AI 技術能被更負責且有原則地應用於敏感與複雜的社會問題。
  • 激發後續研究:此文指出了在公政策略中考量多方制約(如資源限制、公平保障與預測精度)之間的權衡問題,為後續研究提供了豐富的議題與挑戰,包括如何在不同文化及制度環境下調整模型,如何進一步整合因果推斷等技術來提升決策質量等。

總結而言,《The Value of Prediction in Identifying the Worst-Off》不僅在理論上創新建立了預測方法對於社會福利政策的衡量機制,更透過實證驗證提升了其可信度與實用性。對於有志於AI技術與公共政策結合的工程師與研究生而言,本研究提供了一個極具啟發價值的典範,提示我們必須在技術進步與社會正義間尋求合宜的平衡,使AI真正成為弱勢群體的助力,而非僅僅是一組枯燥的數據與指標。


論文資訊
📄 The Value of Prediction in Identifying the Worst-Off
👥 Fischer Abaigar, Kern, Perdomo
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2501.19334

Score Matching with Missing Data

在機器學習領域中,分布學習(density estimation)是核心基礎任務之一,廣泛應用於資料生成、異常偵測、結構化資料建模等多項重要場景。其中,score matching作為一種巧妙避免顯式計算分布常數項(partition function)的參數估計方法,引起了學術界與工業界的高度重視。Score matching 不僅在能量基模型(Energy-based Models)、擴散過程(diffusion processes)等熱門研究方向中扮演關鍵角色,也被廣泛用於圖形模型(graphical models)的結構與參數學習。

然而,現實世界資料不可避免地常有遺失值(missing data),不論是由感測器故障、資料傳輸錯誤,或是資料收集過程中主觀選擇性缺失皆可能導致觀測資料不全。遺失資料嚴重影響模型學習的有效性與可靠性,但過去 score matching 文獻中卻較少針對缺失資料提出完善解決方案,導致此方法在真實複雜應用場景中受到限制。面對此一挑戰,Givens、Liu、Reeve 於 ICML 2025 上發表了他們獲獎論文「Score Matching with Missing Data」,提供理論嚴謹且實務靈活的方法,正式推動 score matching 與缺失資料問題的結合。

研究背景與動機

傳統 score matching 方法的核心是最小化模型分數函數(log-density 的梯度)與真實資料分數函數之間的差距。此方法避開了對未知正規化常數的計算,為高維資料建模帶來巨大便利。惟若資料中有部分維度被遮蔽,導致資料完整向量無法直接取得或估計,score matching 的梯度計算亦變得棘手。

缺失資料問題在多種應用中普遍存在,特別是高維資料時缺失模式複雜多變,如隨機缺失(MCAR)、依賴於觀測資料的缺失(MAR)甚至有偏難處理的缺失(MNAR)。這些因素使得直接將 score matching 套用於缺失資料顯得困難。此外,遺失模式經常在資料的任意子維度上發生,造成標準填補或忽略缺失的策略往往效果不佳。論文作者因此決定發展一套通用且靈活的 score matching 框架,有效整合缺失資料信息,並保持良好的理論保證與實務性能。

核心方法與創新

本文主要創新點在於提出兩種面對缺失資料情況下的 score matching 解法:

  1. 重要性加權(Importance Weighting, IW)Score Matching:採用重要性采樣思想,將缺失資料造成的分布偏差透過權重調整加以補償。該方法可在有限樣本設定下,結合有限域(finite domain)的數學分析獲得明確有限樣本誤差界,理論保障其收斂性與穩定性。重要性加權特別適合資料維度適中、樣本較稀少的場景,因其權重調整能精確校正由缺失引入的分布差異。
  2. 變分方法(Variational Approach):針對高維、缺失模式複雜的場景,作者建構了一種以變分推斷為核心的框架,將缺失資料視為潛變量,透過引入變分分布近似其條件後驗,重新定義 score matching 損失函數。此方法兼具靈活性與擴展性,能有效處理高維多樣的缺失模式,適用於結構化資料如圖形模型的估計。

這兩種方法各有側重,且能互補不足。重要性加權在低維且數據稀缺時優勢明顯,變分方法在複雜高維設定下表現更佳。論文進一步展示了理論推導過程及具體算法實現細節,突顯了其嚴謹的數理基礎與實用價值。

主要實驗結果

作者從理論分析到實驗驗證皆做了全面展示:

  • 在有限域的合成資料上,重要性加權方法展現出強大且穩定的性能,並且實驗結果與嚴格的有限樣本誤差界十分吻合。
  • 針對高維真實世界資料與模擬資料中的圖形模型結構估計任務,變分方法顯著超越傳統忽略缺失資料的 score matching 與其他基線方法,能更準確地揭露潛在結構關係。
  • 透過多種遺失模式測試,包括隨機與依賴資料的缺失,證明本文提出方法在多場景均展現出高度韌性與泛化能力。
  • 實驗也對比了填補法(imputation)與缺失忽略法的弊端,強調直接整合缺失資料的建模優勢。

對 AI 領域的深遠影響

此篇論文的貢獻不僅在技術層面推進 score matching 理論與方法,更從實務角度為處理缺失資料問題提供了一套創新且實用的解決方案。鑒於缺失資料在各種資料密集型應用中無所不在,本文結果能顯著擴展 score matching 方法的應用邊界。

更具體而言,本文促使以下幾點長遠影響:

  • 推動高效學習不完整資料的新範式:以往面對缺失資料,研究者多依賴資料填補或直接忽略,往往忽視了缺失資訊與資料分布的複雜交互關係。本文方法提供了無需完整資料的直接學習機制,提高了建模的魯棒性與準確率。
  • 促進能量基模型與擴散模型在實務中的落地:這兩類模型因對分布特徵學習能力強,越來越受矚目。缺失資料擾動長期制約其應用普及,該論文突破了此限制,為下游系統如生成模型、異常偵測、醫療資料分析帶來新機遇。
  • 擴展圖形模型與結構化學習方法論:高維複雜資料的缺失模式使得圖形模型學習困難重重。本文提出的變分框架,有助於進一步推動結構與因果關係建模在少樣本及不完整資料環境下的研究與應用。
  • 樹立缺失資料問題下理論與實驗結合的典範:作者不僅著眼於實用性,也給出嚴格的理論保證,使得研究成果既有堅實數學基礎,亦具現實指導價值,為後續研究建立高標準。

綜合而言,《Score Matching with Missing Data》無疑為概率模型學習領域注入了重要活水,不僅填補了缺失資料與 score matching 交叉研究的空白,更在理論與實際應用中均證明了強大威力。對於希望深入研究分布學習、能量基模型或圖形模型且需面對不完整資料的工程師與學者,本論文可視為必讀之作,值得深入研讀與實際操作驗證。


論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

Conformal Prediction as Bayesian Quadrature

隨著機器學習模型越來越多應用於金融風險評估、醫療診斷、司法判決等高風險場景,模型預測的可靠性與不確定性量化變得尤為重要。傳統的黑盒模型雖然在預測準確度上不斷突破,但其不確定性評估往往不足,且若部署時遭遇數據分布偏移,預測錯誤可能導致嚴重後果。為此,分布無關(distribution-free)且具保證性的「符合預測」(Conformal Prediction, CP)技術受到廣泛關注,因其能在不依賴模型分布假設的前提下,提供有意義的信賴區間或有效覆蓋率。但CP方法本質上屬於頻率派(frequentist)框架,儘管保證強健,卻也存在靈活性與詮釋上的限制。

ICML 2025 年由 Snell 與 Griffiths 提出、榮獲 Outstanding Paper 的論文《Conformal Prediction as Bayesian Quadrature》,從根本上重新思考了符合預測的理論基礎,並突破地將其置於貝葉斯(Bayesian)觀點之下進行探討。此研究釐清了過去頻率派符合預測存在的不完整性,提出一套基於貝葉斯積分(Bayesian Quadrature,BQ)的新方法,不僅保有可解釋的保證,還能呈現損失函數潛在的分布範圍,呈現更豐富且實用的不確定性描述。

研究背景與動機

符合預測作為一種不依賴假設的校正機制(calibration mechanism),透過利用歷史驗證集合(calibration set)的預測誤差行為,推導出測試階段應能達到的覆蓋率保証。其核心優勢在於對底層模型的「黑盒」假設,使得任何預測方法都能被包容進框架內,提供保證。然而這些保障屬於頻次意義下(頻率派意義)的概率保證,換言之,保證的是在無限次獨立重複實驗下所觀察的覆蓋率行為,並非對單次預測的完全可信度推論。這在實務應用中帶來詮釋限制,與對精確風險管理日益嚴苛的需求有所落差,尤其在樣本數有限且模型複雜的場景下更為明顯。

另一方面,貝葉斯方法強調以先驗知識結合觀察資料透過後驗機率推論,在不確定性定量與決策制訂上擁有天然優勢,但傳統貝葉斯不確定性量化又缺乏能覆蓋「未觀察樣本」性能的頻率保證。因而如何將頻率保証與貝葉斯不確定性複合成統一框架,既是理論上重要問題,也具備實務高度價值。

核心方法與創新

本論文的核心創新在於:

  • 符合預測與貝葉斯積分的等價關係揭示:作者證明了符合預測中的置信區間與損失分布期望的估計,實際上可被視為一種特定的貝葉斯積分問題,即對損失函數分布的貝葉斯後驗預測分佈計算。這一觀察打破了過往頻率派與貝葉斯法則界線,提供了數學上的連結與統一視角。
  • 基於貝葉斯積分的替代框架:運用貝葉斯積分方法,透過對不確定函數的後驗分佈建模與對損失的數值積分估計,展示可取得不僅是覆蓋率保證,更是損失的全分布預測。這讓模型不確定性可以以概率分布而非單一區間的形式被表達,能呈現更豐富的風險結構。
  • 實用演算法設計:論文提出實際可行的運算過程,結合高效的高斯過程(Gaussian Process)作為後驗非參數模型,並利用貝葉斯積分的核技巧避免高維數據面臨積分爆炸問題,保障計算效能與結果穩健性。

主要實驗結果

作者在多個標準迴歸與分類資料集上驗證提出方法,並與傳統符合預測方法以及常用不確定性量化技術作比較。實驗結果展示:

  • 覆蓋率與保證的符合度:貝葉斯積分框架在覆蓋率控制上能達到甚至優於標準符合預測,且在樣本量較小時表現更穩定。
  • 損失分布的完整描述:該方法不僅給出保護覆蓋率的置信區間,更可估計損失的整體後驗分布,幫助使用者洞察可能的風險範圍與尾部分布,例如極端錯誤的概率。
  • 模型不確定性的靈活性與解釋力提升:透過後驗分布的視覺化,使用者能更直觀理解預測置信,不再是置信區間的點線,而是整體概率景觀,利於風險決策。

對 AI 領域的深遠影響

本論文的重要貢獻不僅在理論上架起了頻率派與貝葉斯派不確定性量化的橋樑,更在實務層面提供了一套既有可操作性又具解釋性的工具,對 AI 領域未來透明可靠的預測系統建構具有深遠意義。具體而言:

  1. 理論整合與推進:打破了不確定性量化中頻率派與貝葉斯派的對立思維,促使研究者重新審視機器學習預測模型的保證定義與解釋,在統計學與機器學習方法論上都有啟發。
  2. 高風險應用領域的安全保障:提供了更細膩的損失概率分布資訊,使得自動決策系統在醫療診斷、金融風險管理、司法預測等領域可根據具體風險偏好制定更合理且符合現實需求的條件和策略。
  3. 推動不確定性評估的普及與標準化:隨著該方法算力與效能平衡的實現潛力,未來有望成為業界標準的風險評估工具之一,促進負責任 AI 的推廣。
  4. 激發跨領域合作:由於貝葉斯積分方法依賴統計推論、機器學習與數值分析的交叉,促進了數學統計與人工智慧演算法間的互動,推動多學科融合的前沿發展。

總結而言,《Conformal Prediction as Bayesian Quadrature》一文通過創新理論洞察和實用算法創新,重新定義了符合預測的不確定性量化範式。對於希望構建明確風險控制、具有解釋力且理論紮實的 AI 系統的研究者與工程師,這項工作提供了極具價值的理論基礎和技術工具,預期將引領未來不確定性量化的變革方向。


論文資訊
📄 Conformal Prediction as Bayesian Quadrature
👥 Snell, Griffiths
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.13228

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

隨著大型語言模型(Large Language Models, LLMs)在人類語言理解與生成領域取得驚人成就,「下一個字元預測(next-token prediction)」成為主流訓練目標,成功打造出如 GPT 系列般的強大生成模型。然而,這類模型普遍被認為在創造性與遠見規劃能力面臨根本限制。ICML 2025 收錄並授予傑出論文獎的這篇論文 「Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction」,由 Nagarajan 等人提出,從根本挑戰並揭示了傳統 next-token 預測的盲點,並以創新的實驗設計與方法論,開啟超越下一步預測的智能創造力研究新局。

研究背景與動機

現今主流語言生成模型多以「給定上下文,預測下一個字元/詞」的策略進行訓練與應用,這種方法依賴自回歸模型在巨量語料上學習條件機率分布。然而,此方式本質是近視(myopic)的—模型在每一步都只考慮下一個字元的最可能後續,缺乏遠端規劃或長期目標導向思考。換言之,模型雖能「平滑地」延續文本,但在「創新」「跳躍性思維」「前瞻規劃」這類開放性、非確定性強的任務上,表現有限。

實際生活中,人類的創造過程往往包含非線性、隨機探索與系統規劃。例如新蛋白設計、數學問題構思、隱喻聯想等,都需要從抽象知識間發現此前未曾顯現的連結,並組合出新穎模式。論文團隊因此設計一系列「簡約演算法任務」,作為抽象化的創意挑戰基準,模擬類似真實世界開放式創作背後的隨機規劃過程。藉此,他們探索現存 next-token 模型在創造力方面的上限,並尋找改進之道。

核心方法與創新

本研究的核心創新可分為兩大方面:

1. 最小化演算法任務設計

作者自創一組簡潔的演算法任務,這些任務不依賴大規模自然語言資料,而是抽象並精煉出創造性任務的關鍵特徵:

  • (a)在抽象知識圖(graph)中發現新連結,例如模擬字謎、隱喻或研究靈感產生過程。
  • (b)建構新的模式,如設計數學問題或蛋白質新結構。

這些任務本質上對模型提出了隨機規劃(stochastic planning)需求,非單純預測一個最佳字元,而是需跨多步驟推敲、試探並探索可能路徑。

2. 評估 next-token 預測的「近視性」以及多字元生成策略

透過實驗與理論分析,論文指出傳統 next-token 預測本質上具有短視效應,無法有效捕捉長期多步驟的隨機性與多樣性,導致創意生產受限。相較之下,作者闡述並實驗評估了兩種多字元/多步驟生成策略:

  • 無教師訓練(teacherless training)方法,透過讓模型自我探索多元路徑以豐富輸出多樣性。
  • 基於擴散模型(diffusion models)的方法,從整體分布中反覆采樣,進而生成多樣且具創造性的結果。

這些方法能突破單一步驟最優解限制,促使模型擁有更寬廣的探索空間與遠見。

3. 噪聲注入技術(Seed-Conditioning)提升多樣性與一致性

在探索隨機性問題時,一般做法多半是在模型輸出端透過調整溫度(temperature sampling)引入隨機。然而,這會傷害生成文本的連貫性。作者新穎提出在輸入層注入「種子噪聲」(seed-conditioning),這種方法能在不犧牲語意連貫性的前提下,誘發模型內部多樣化生成機制。實驗顯示,此策略於多項任務中表現堪比甚至優於傳統的輸出端溫度調整,為控制隨機性提供一條全新有效途徑。

主要實驗結果

研究團隊在上述設計的算法任務集上,對比了不同模型及生成策略:

  • 傳統的 next-token 語言模型在開放性創作任務上表現受限,多數時間陷入局部最優解,生成的方案缺乏多樣性與創新。
  • 無教師訓練方式能有效拓展模型探索空間,顯著提升生成多樣性與新穎度。
  • 基於擴散模型的生成策略則進一步改善結果,在保持合理性基礎上創造出更具突破性的解決方案。
  • 噪聲注入(seed-conditioning)在不破壞整體組織結構的前提下,成功激發模型生成豐富多元的輸出,展現了與輸出端溫度調整不同且更具有彈性的作用機制。

整體來看,論文提供了嚴密的實驗與理論支持,證實了現有下一字元預測模型的創造力瓶頸,並提出具體且可擴展的新方法,為開放式創意生成領域帶來突破。

對 AI 領域的深遠影響

本論文不僅在創造性人工智慧的理論與實踐層面具開創性貢獻,更對語言模型訓練與生成策略提供了警示與革新方向:

  • 重新審視下一字元預測的本質極限:研究提醒業界,不應將 next-token 預測視為通吃所有生成任務的萬用解,尤其在涉及長期規劃與創新突破的任務上需尋找新的學習機制。
  • 鼓勵開發多步驟、計劃型生成技術:本論文推崇的無教師訓練和擴散模型,強調多步驟的策略探索與隱式計劃能力,未來將促進生成模型在多領域如科學研究、藝術創作與自動設計上的應用突破。
  • 提供可擴充的測試平臺和方法論:簡潔的算法任務組合為學術界建立了良好的測試基準,方便量化與比對各種創意生成系統的能力,促進透明且可重現的研究生態。
  • 啟示隨機性控制的新技術途徑:「種子注入」技術提供了一套觀念清晰且實用的隨機干預手段,對於生成文本的多樣性與一致性維持找到了更理想的平衡點,有望廣泛應用於其他生成模型與任務。

未來,隨著人工智慧進入更多需要創新思維的實際場景,如新藥研發、創意寫作、自動編程等,本論文標誌性的工作提供了重要指引與技術基礎。它不僅挑戰了生成模型的既定訓練范式,也激發研究者重構「智能生成」的理念,期待能引領後續世代生成模型更具前瞻性與創造力。

作者團隊亦已公開部分程式碼,促進研究社群共創並檢驗成果,為持續突破自然語言處理與生成技術瓶頸奠定堅實基礎。


論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266

2026年4月18日 星期六

Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

隨著生成模型在自然語言處理、計算機視覺以及其他離散資料領域的蓬勃發展,傳統的自回歸模型(Autoregressive Models,簡稱 ARMs)因其嚴格的 token 順序生成策略,逐漸暴露出在推理階段靈活性不足與計算延遲等缺點。針對此一挑戰,Masked Diffusion Models(MDMs)作為一種新興架構,透過在訓練時隨機 mask 多個 token 進行重建,帶來推理時序靈活度的極大提升。然而,這種訓練方式也引入了理論與實務上的困難:MDMs 需在訓練階段解決指數級多樣的填空任務,計算複雜度遠超自回歸模型。由 Kim 等人於 ICML 2025 發表的〈Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions〉一文,則深入解析這一核心挑戰,並透過理論分析與實驗設計,提出推理階段動態調整 token 解碼順序的策略,成功大幅改善 MDMs 的生成效能,獲得本屆 ICML 傑出論文獎殊榮。

研究背景與動機

傳統的自回歸模型通常預設固定生成順序,逐步從左到右或依特定順序逐一產生 token,雖然在訓練上能以教師強制(Teacher Forcing)方式有效優化,但推理過程難以並行,且對於非自然順序的問題場景(如邏輯謎題、結構化數據生成)不具彈性。相對而言,MDMs 在訓練時以隨機遮蔽(mask)token,多次進行填空練習,理論上能學會不依賴固定次序,於推理時可彈性選擇生成順序,潛力巨大。

然而,實務中 MDMs 面臨兩大瓶頸:

  • 訓練痛點:由於必須學習填補任意 mask 組合,伴隨指數級子問題空間,訓練複雜度極高。
  • 推理挑戰:若不謹慎選擇 token 解碼順序,模型可能陷入較難解的子問題,造成表現不佳。

本論文即為揭開這兩者的權衡機制,並尋求最佳化推理策略,以釋放 MDMs 較自回歸模型更大靈活性的潛力。

核心方法與創新

本研究從兩大面向切入:

  1. 理論分析訓練複雜度:作者透過數學嚴謹的證明,表明 MDMs 在訓練過程相較於 ARMs,必須處理的遮蔽子問題數量呈指數攀升,這是造成訓練時間及資源需求爆炸的根本原因。此結果說明了“Train for the Worst”(在最難的填空子問題上訓練)的真實含義與挑戰。
  2. 動態推理順序規劃:針對推理階段,論文提出一套策略,能根據模型當前信心水準與生成狀況,自適應選擇下一個解碼 token 的順序,等同於“Plan for the Best”(為最有利的生成路徑規劃)。該方法能幫助模型避開預測困難的子問題,有效提升整體生成品質。

整體框架的創新重點在於:不僅強調 MDM 必須承受的訓練負擔,更凸顯如何透過智慧化推理順序,解放模型潛力,兼顧訓練與推理的對立挑戰,達成性能最大化。

主要實驗結果

為驗證理論與方法的有效性,作者選擇邏輯拼圖類任務(如數獨 Sudoku)進行挑戰性測試:

  • 使用預先訓練好的 MDM 模型,若採用固定或隨機順序推理,解題正確率不到 7%。
  • 在應用動態調整 token 推理順序的策略後,解題準確度驟升至約 90%,展現壓倒性提升。
  • 此結果甚至超越擁有 7 倍參數量,且經由教師強制訓練來學習固定正確解碼順序的自回歸基線模型。

此案例不僅顯示 MDMs 於結構化、離散推理任務中的強大潛力,也說明動態策略在提升推理效率與品質上的關鍵價值。此外,作者在其他語言及序列生成問題也觀察到類似趨勢,確保該方法具備高度通用性和可擴展性。

對 AI 領域的深遠影響

本論文不僅在理論層面提供了對遮蔽擴散模型訓練複雜性的深度洞察,也在實務面提出切實可行的解決策略,對生成模型研究與應用展現多面向影響:

  • 推翻固定順序迷思:傳統自回歸生成依賴嚴格順序,限制了推理靈活度,本文開創性證明,若能善加利用生成順序動態調整,不但能顯著提升效能,更能降低模型設計的限制。
  • 擴展離散生成模型邊界:MDMs 以隨機 mask 為核心訓練策略,帶來不同於 ARMs 的優勢與挑戰,此論文揭示如何透過“最壞情況訓練,最好情況推理”策略平衡該張力,為離散領域生成模型提供新範式。
  • 提升邏輯推理與結構任務的能力:動態 token 選擇策略對數獨等邏輯謎題的巨大改進,顯示 MDMs 有潛力成為擅長處理結構複雜問題的利器,未來可望拓展至程式碼生成、結構化規劃等領域。
  • 推動研究者關注訓練與推理協同優化:該工作點出遮蔽擴散模型在訓練與推理階段存在的根本矛盾,並提出協同解法,激勵未來進一步探索如何在其他生成架構中尋求類似「訓練對最壞,推理取最好」的思維。

總結來說,Kim 等人的研究突破了現有離散生成模型中重要的理論與技術瓶頸,標誌著生成建模方法論的一大進展。透過精巧的理論推導與生動的實驗驗證,這篇論文不僅為 MDMs 打開更寬廣的應用前景,也引導後續研究發展更高效、靈活且戰略性的生成框架。對AI生成模型未來在自然語言處理、結構化數據分析及深層邏輯推理等多元場景,均具備深遠且實際的推動意義。


論文資訊
📄 Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
👥 Kim, Shah, Kontonis, Kakade, Chen
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.06768

CollabLLM: From Passive Responders to Active Collaborators

在自然語言處理與人工智慧領域中,大型語言模型(Large Language Models,簡稱 LLMs)已展現出強大的語言理解與生成能力。然而,當前主流的 LLM 通常是透過下回合(next-turn)獎勵訓練,這種「被動響應」的訓練機制雖然能促使模型在單一輪對話中給出合理回答,卻限制了模型針對「多輪交互」和「長期目標優化」的表現。具體而言,當面對歧義、不確定或者開放式的使用者請求時,這類模型傾向於僅提供表面回應,而無法主動挖掘使用者的深層意圖或引導對話走向更具價值的方向,導致互動效率低下,用戶體驗受限。

對此,ICML 2025 榮獲 Outstanding Paper 的《CollabLLM: From Passive Responders to Active Collaborators》一文,由 Wu 等人提出了「CollabLLM」這一全新框架,致力於突破 LLM 在多回合對話中被動應答的瓶頸,將其轉化為「積極協作」的對話伙伴。本文不僅提出理論創新,同時通過精心設計的多輪人機協作評估基準與大規模使用者研究,證明了其技術可行性與實用價值。

研究背景與動機

過去大多數 LLM 訓練主要著眼於「下一回合的回答品質」,透過強化學習或監督學習優化下回合反饋,使模型能快速產生語法正確且語意相關的回答。但這種短視的目標函數無法捕捉「長期的對話目標」。例如,在協助完成文件撰寫、問題解決或跨步驟任務操作時,單輪回應未能引導用戶達成最終意圖,容易令對話停滯或重複。

因此,模型必須擁有多輪感知能力與主動策略,不僅理解用戶當前需求,更能預測未來可能需求,主動建議並協助用戶達成任務。這種「主動協作」的思維契合人類對話中「合作式溝通(FCP, Cooperative Principle)」的本質,有助提升互動效率,推動 AI 助理向「更人性化的協作者」邁進。

核心方法與技術創新

本文提出的核心解決方案是「協作式模擬(Collaborative Simulation)」與「多輪感知獎勵(Multiturn-aware Rewards)」。整體流程包含:

  • 協作式模擬:藉由模擬多輪對話的整體過程,模型能評估當前回應在整體任務中的長期貢獻,而非單次回答的即時反饋。此方法自動建立多回合對話的因果關係,讓模型基於未來回合可能的結果調整策略。
  • 多輪感知獎勵設計:與傳統基於單回合獎勵不同,該獎勵函數綜合考量用戶意圖的揭露程度、對話的互動品質、任務完成度等維度,為模型提供更多元且完整的學習訊號。
  • 強化學習精調:CollabLLM 利用上述獎勵函數對預訓練 LLM 進行強化學習微調,使其不再是被動回答,而是主動「發掘使用者背後尚未明說的需求」,並提供具洞察力、具建設性的建議。

這種方法的創新在於:不僅聚焦單輪精準回答,更將對話視為連續、動態的決策過程,強化長期合作與目標達成的能力。此外,CollabLLM 擴展了模型作為人類協作者的角色,為對話系統帶來全新交互維度。

主要實驗結果

為驗證 CollabLLM 的正向效果,作者設計了專門的多回合交互基準,包括三大高難度任務,典型如多步驟的文件創建。透過與數個先進基準模型比較,CollabLLM 在:

  • 任務績效提升:平均提升 18.5%,顯著提高任務完成的質量與效率。
  • 互動性評測:由 LLM 評委打分,模型在互動性指標上提高 46.3%,表明其更積極主動,引導性及適應性大幅強化。

更具說服力的是,作者進行了包括 201 名真人評審的大規模用戶研究,證明 CollabLLM 的實際應用價值:

  • 用戶滿意度平均提升 17.6%。
  • 用戶完成任務所需時間下降約 10.4%,顯示對話更有效率且不拖泥帶水。

這些數據強烈支持 CollabLLM 在提升人機多輪對話質量和效率上的顯著優勢,也反映其對實務場景的高度適應性。

對 AI 領域的深遠影響

CollabLLM 的提出,不僅為對話式 AI 設定了一個新的發展方向,更挑戰了以往「被動應答」的設計思維。具體來說:

  1. 多輪長期目標優化的典範轉移:透過協作式模擬與多輪感知獎勵,模型可主動探究使用者意圖,長期規劃對話策略,這促使對話系統從回答生成演進為「自我調整與協同解決問題的智能代理」。
  2. 設計更人性化的 AI 助理:CollabLLM 展現 AI 不僅是工具,也是智慧協作者,這符合人機共生甚至人機協作的未來趨勢,提高了使用者互動體驗與滿意度,達到更自然且富有成效的交流。
  3. 跨領域應用潛力:其多輪人工智慧協作框架極具通用性,可廣泛應用於法律、醫療、教育、內容創作等多種需長期互動的複雜場景,推動這些領域 AI 效能的飛躍。
  4. 推動強化學習在 NLP 的應用:CollabLLM 成功驗證了結合強化學習與多輪任務獎勵能有效提升語言模型能力,開啟更深入的跨輪次策略學習與優化研究新方向。

總結來說,CollabLLM 從根本上顛覆了傳統大型語言模型的互動模式,打造出更貼近人類思考模式、能夠主動協作的智能對話系統。它不僅具有理論創新,實驗結果亦極具說服力,對未來 AI 助理的設計、實現及應用提供了寶貴的藍圖。隨著更多多輪複雜任務的需求不斷飆升,CollabLLM 的技術理念與方法可望成為業界與學術界探索人機協作新境界的重要基石。


論文資訊
📄 CollabLLM: From Passive Responders to Active Collaborators
👥 Wu, Galley, Peng, Cheng, Li, Dou, Cai, Zou, Leskovec, Gao
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.00640

Data Shapley in One Training Run 深度解讀

在現代機器學習發展中,大規模資料的價值分配問題日益受到關注。尤其當模型越來越依賴龐大且多樣的訓練資料時,如何合理衡量每筆資料對模型性能的貢獻,已成為理論與實務界的重要挑戰。Data Shapley 準則因其根植於博弈論,能以嚴謹的數學基礎來量化資料的重要性,被視為目前最具說服力的資料貢獻度評估方法。然而,傳統的 Data Shapley 計算需要對眾多資料子集重複訓練模型,計算成本極高,實務中難以應用於今日主流的大型神經網路和基礎模型(foundation models)。

本文《Data Shapley in One Training Run》由 Wang、Mittal、Song 與 Jia 四位作者提出了一項突破性的技術——In-Run Data Shapley,有效解決了現行方法在計算效率與目標模型特異性方面的瓶頸,並獲得 ICLR 2025 傑出論文優秀獎(Outstanding Paper Honorable Mention)。本篇文章將帶您深入解析該論文的研究動機、核心方法、實驗成果,以及對人工智慧領域的深遠影響。

研究背景與動機

隨著生成式 AI 與大型語言模型的崛起,模型訓練所依賴的資料規模日益龐大,從數百萬到數十億筆不等。在版權爭議、資料策展、模型公平性和資料偏誤檢測等多方面,判斷哪部分資料對模型具備實際助益變得至關重要。Data Shapley 概念源自於經濟學中的Shapley Value,用以公平分配合作遊戲中各方貢獻。在機器學習中,Data Shapley 嘗試以此框架衡量每筆資料在整體模型性能增益上的貢獻值。

然而,現有計算 Data Shapley 的方法必須多次重訓模型於不同資料子集上,嚴重限制了它的規模延展性及針對單一目標模型的解析能力。此外,傳統方法給出的貢獻度分數是基於演算法整體特性,無法洞察特定一次訓練過程中模型的獨特性。

因此,作者希望提出一種能夠在單次模型訓練過程中直接、高效地估計資料貢獻度的新技術,以推動資料評估真正落地於大型基礎模型訓練和後續分析。

核心方法與創新

論文提出的「In-Run Data Shapley」核心思想在於利用「模型訓練過程本身」即時捕捉資料對目標模型的貢獻,而非以傳統的多次重訓方式來評估。其方法架構主要包含以下幾個創新點:

  • 一次訓練過程中估計貢獻:作者透過精巧數值分析技術,將 Data Shapley 的數學公式重構為訓練過程中梯度和參數更新的追蹤問題。此舉使得資料貢獻度的估算能被嵌入模型梯度計算及更新內,無須額外訓練。
  • 近似算法的設計:為了彰顯實務可行性,論文提出近似算法,運用隨機梯度估計與動態權重調整機制,顯著降低計算複雜度,且在理論與實驗中證明誤差在可接受範圍內。
  • 針對特定訓練過程定制:與傳統採樣模型穩態分布的貢獻分數不同,In-Run Data Shapley 聚焦「當前一次訓練實例」下的模型狀態,給出具體、可解釋的資料價值反映,提供更精準的資料監控與篩選維度。
  • 高擴展性能與低計算開銷:在標準模型訓練程序中僅增加輕微計算負擔,顯著優於傳統方法需重複訓練數倍模型的巨大成本,首次實現基礎模型規模預訓練資料的資料貢獻點評。

主要實驗結果

為了驗證所提方法的有效性與實用性,作者針對不同資料與模型設定開展了多組實驗,涵蓋圖像分類、語言模型預訓練,甚至生成模型的情境。主要實驗結果包括:

  • 與傳統 Data Shapley 的對比:In-Run Data Shapley 給出的資料貢獻排序與經典方法高度吻合,且在計算時間上節省數十倍,顯示出極強的效率優勢。同時,所評估的貢獻度具備模型特異性,更能反映特定訓練實例的實際影響。
  • 資料驅動的模型性能分析:實驗發現,在大規模預訓練中,部分資料雖數量龐大,卻對下游任務貢獻甚微,甚至可能帶來負效應。透過 In-Run Data Shapley,能有效識別與篩除此類資料,提升模型效率和泛化能力。
  • 版權與資料倫理的應用探討:透過精準的資料貢獻估計,研究團隊展示如何為生成式 AI 設計更合理的資料版權回報機制,保障原創資料提供者權益,亦促進模型訓練過程的透明度與責任歸屬。
  • 大規模基礎模型預訓練測試:首度將資料 Shapley 評估拓展至基礎模型範疇,展示此技術在眾多資料來源混合訓練時,能夠揭示哪些資料集與子集對模型表現貢獻最大,為資料蒐集和清理提供科學依據。

對 AI 領域的深遠影響

本論文的最大貢獻在於打破了過去資料價值評估在大規模深度學習中應用的技術瓶頸,將資料 Shapley 推向了實際可用的範疇。這不僅是一項技術上的創新,更在多個層面對人工智慧領域產生深遠影響:

  • 推動資料為中心的 AI 研究:隨著「資料驅動 AI」成為趨勢,如何合理分配與管理資料價值,將影響到未來模型設計、訓練策略、數據市場與合作框架。In-Run Data Shapley 提供了一個可行路徑,促使資料本身成為可計量與可管理的資產。
  • 促進公平與透明的 AI 生態:透過準確的資料貢獻度估算,有助於揭露偏見資料來源,減少模型對特定族群或資料子集的過度依賴,提升模型公平性與泛化水平,亦有利於建立資料版權和回饋機制,保障資料提供者的權益。
  • 支持大型基礎模型與生成 AI 的可持續發展:基礎模型因訓練所需龐大資料和資源備受挑戰,In-Run Data Shapley 可幫助科研與工業界優化資料庫維護,實現更加高效且環保的訓練流程。
  • 開創單次訓練中的資料價值評估新範式:未來更多方法可能會借鑒此次提出的思路,將訓練過程內部資訊轉化為即時的解釋與調控機制,豐富機器學習系統的解釋力與適應性。

總結來說,《Data Shapley in One Training Run》憑藉一項巧奪天工的技術創新,重新定義了資料貢獻度評估的實踐可能,使得這一理論工具從受限制的研究方法蛻變成實際可用的工程利器。隨著 AI 應用日益普遍與資料倫理問題加劇,此技術的問世可望在透明化訓練、資料管控及模型優化等多方面帶來波瀾壯闊的革新。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011