行有餘力則以學文: Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

2026年5月26日星期二

Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

近年來，生成模型在自然語言處理與其他離散領域中持續掀起革命，而「Masked Diffusion Models（MDMs，遮蔽擴散模型）」作為一種替代自回歸模型（Autoregressive Models, ARMs）的新興方法，逐漸受到關注。論文《Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions》由 Kim 等人於 ICML 2025 發表並獲得 Outstanding Paper 獎項，深刻探討了 MDMs 的訓練困難與解碼策略對其性能的影響，對推動離散領域生成模型技術具備突破性的啟發意義。

研究背景與動機

自回歸模型在離散生成任務中擁有相當的成功，主要是因為其條件式生成特性，依序預測每個 token，使得模型可學習明確的生成順序。然而，這種逐步生成的特性在推論期存在順序鎖定的問題，限制了靈活性與平行化的可能，且在某些複雜任務如邏輯推理或結構化問題時容易陷入排序錯誤的困境。

與之相對應的，Masked Diffusion Models 則以隨機遮蔽部分 tokens 並重建它們的策略，學習可在任意順序填充缺失部分的能力。此方法在訓練階段不依賴固定順序，理論上增強推論彈性。然而，其挑戰在於訓練期間模型需處理指數級數量的遮蔽子問題，致使計算負擔與學習難度大幅增加。此外，如何在推論階段選擇最佳的解碼排序以最大化性能，仍是未解的難題。

因此，本論文由此切入，提出系統性的理論與實驗分析，揭示在 MDMs 中「訓練階段的最壞（Worst）遮蔽子問題」與「推論階段的最佳（Best）解碼策略」間的平衡與機制。

核心方法與創新

本論文的最大創新點可拆解為兩個方向：

1. 理論與實證揭露 MDM 訓練階段的困難

作者從理論上證明，MDMs 訓練時必須學習無數子遮蔽問題，包含許多計算上非多項式時間可解（computationally intractable）的子問題，這比起 ARMs 通常只需訓練一條固定筆記（固定的序列生成順序）更加困難。此發現有助於解釋 MDM 必須付出更大計算代價及更長訓練時間的原因。

在實驗層面，作者透過定量分析對比 MDM 與 ARM 在訓練過程中面臨的子問題難度，進一步佐證理論推導的正確性。

2. 推論階段的適應性解碼策略：Plan for the Best

在推論階段，MDMs 在理論上具備任意調整 token 解碼順序的自由度。作者依此提出一套自適應的解碼順序策略，使得模型能夠「避開」訓練中最困難的子問題，專注於優先解決較為簡單或關鍵的 tokens，大幅提升推論效率與準確度。

具體而言，這種策略透過在推論時動態評估哪些token填補較為有信息量或易於確定，優先生成，繼而逐步減少整個填充空間的不確定性。這與過去固定或順序生成不同，是一種根據當下生成狀態做出最優解碼決策的演算法設計。

主要實驗結果

透過在標準離散生成任務，特別是具有挑戰性的邏輯謎題如 Sudoku 解題實驗，論文展示了自適應解碼順序帶來的劃時代改進：

未使用自適應策略的預訓練 MDM 解題正確率不足 7%。
應用自適應解碼順序後，正確率躍升至約 90%。
在參數規模遠小於自回歸模型（ARM）的情況下，MDM 不僅超越傳統 ARM，甚至超越了明確透過教師強化（teacher forcing）學習固定解碼序列的強大 ARM，後者參數量多達 7 倍之多。

此外，透過消融實驗與分析，作者根據不同解碼順序策略的性能差異，進一步驗證了自適應解碼策略在提升 MDM 表現上的關鍵角色。

對 AI 領域的深遠影響

本論文從理論機制與實際應用兩方面，對離散領域生成模型格局提出了具變革性的見解：

揭示 MDM 本質上的訓練難點：透過深度理論與實證分析，明確點出 MDM 之所以難以訓練的根源，為後續優化模型架構與訓練策略打下基礎。
開創自適應解碼的先河：任意且靈活的解碼順序在推論期的重要性首次被系統性證實，為生成模型的推論策略設計提供全新方向。未來可望推動更多基於狀態調整的「計劃式」策略。
推動離散生成模型在複雜結構任務的應用潛力：透過 Sudoku 等邏輯任務展現的高效與高準確率，MDM 不再僅是理論上的替代方案，而具備真實實務競爭力，促使研究者重新審視序列生成順序的限制與突破。
結合訓練與推論設計的整體視角：本論文提出的「Train for the Worst, Plan for the Best」理念，強調在訓練期面對最難情況穩健學習，而在推論期則智慧選擇最優策略，展現先進模型設計中訓練與推論協同的重要性。

總結來說，Kim 等人這篇獲獎論文不僅在技術層面提出了創新方案，更從根本上重新審視了遮蔽擴散模型架構的本質契機。它預示著未來離散生成模型將在靈活性、多樣性與效能上躍上新高度，也為相關領域研究者與工程師提供了策略性設計的重要參考。

論文資訊
📄 Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
👥 Kim, Shah, Kontonis, Kakade, Chen
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.06768