2026年5月13日 星期三

Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

隨著生成模型在自然語言處理與離散結構生成任務中扮演越來越重要的角色,Masked Diffusion Models(MDMs)作為近年興起的生成架構,逐漸成為一種具吸引力的替代方案。Kim 等人在 2025 年 ICML 發表的論文《Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions》深入探討了 MDMs 在離散域生成中的訓練與推理策略,並提出了關鍵的理論與實務發現,最終榮獲「Outstanding Paper」獎項。本篇介紹將帶您解析此篇論文的研究動機、核心方法、實驗成果及對整個生成模型領域的深遠影響。

研究背景與動機

傳統的離散生成模型如自回歸模型(Autoregressive Models, ARMs)一向是主流方法,透過固定且線性的序列生成順序,在生成任務中展現出強大的能力。然而,ARMs 在推理階段有明顯的限制:生成過程無法並行且過度依賴預先定義的生成順序,造成速度瓶頸及靈活性不足。

反觀 Masked Diffusion Models,透過「掩碼擴散過程」逐步填補被遮蔽的token,鼓勵模型學會在多種上下文中重建缺失資訊,訓練階段需要解決指數級數量的「填空問題」。雖然它們在訓練時面臨較大的複雜度,但在推理階段卻能彈性選擇「任意解碼順序」,極大提升推理多樣性與效率。

本論文的核心問題是:這種訓練時面對的巨大多樣性與推理時的靈活性,如何對模型性能與效率產生影響?訓練時的「最壞情況學習」是否限制了模型的實用價值?推理時「策略性選擇填補順序」是否能彌補這些困難?對此,作者展開了深度理論分析和豐富實驗驗證。

核心方法與創新

本研究將主軸放在「Token Ordering(序列中token的解碼順序)」對 MDM 的影響,其創新點可分為以下三個面向:

  1. 理論證明 MDM 訓練複雜性高於 ARM
    論文透過理論分析指出,MDM 在訓練時需面對指數增長的填空子問題空間,遠比 ARM 以固定序列學習單一路徑複雜。這使得 MDM 在「可控性」面臨挑戰,因為模型要同時適應眾多難度不一的子任務。
  2. 提出「適應性推理策略」以靈活決定填補順序
    作者發展了一套自適應推理方法,使模型能根據當前生成狀態動態選擇下一個要解碼的token,而非固定或隨機排序。此策略能避開算力及推理難題中的「硬核子問題」,有效提升終端生成質量與效率。
  3. 針對邏輯謎題(如 Sudoku)做專門評估
    利用結構化邏輯謎題作為評測場域,有助於觀察模型在複雜約束條件下推理與生成的真實能力。這同時能凸顯 MDM 在消化與組合離散資訊上的優勢,特別是配合自適應推理策略時。

主要實驗結果

實驗部分作者選擇了代表性且具挑戰的離散任務,特別是在 Sudoku 解謎上取得顯著突破:

  • 基線表現基於預訓練的 MDM:隨機或固定順序推理時解題準確率不到 7%。
  • 應用適應性推理策略後:準確率大幅提升至約 90%,顯示解碼順序的智慧選擇對性能有決定性影響。
  • 與大型 ARM 模型比較:MDM 僅用約七分之一的參數量,便超越了需利用 teacher forcing 教導正確解碼順序的自回歸模型,凸顯 MDM 在資源與效率上的優勢。

此外,論文亦通過數學分析和模擬實驗,驗證了訓練階段的複雜性困境以及推理階段靈活策略的必須性,從理論與實證雙重角度奠定了研究架構。

對 AI 領域的深遠影響

此篇論文對生成模型,特別是離散生成領域產生多方面的啟發與貢獻:

  1. 破除嚴格生成順序的束縛:MDM 藉由掩碼擴散過程帶來訓練彈性,結合自適應的推理策略,改寫以往 ARMs 固定線性解碼的限制,為構建更加靈活高效的離散生成框架鋪路。
  2. 理論與實務相輔相成的范例:本研究不僅在理論上揭露 MDM 訓練複雜度的本質,還透過創新推理方法和針對性實驗驗證,有助於促成更多結合理論與工程的生成模型創新。
  3. 邏輯推理與結構化生成的探索:在 Sudoku 等有嚴格規則和約束的任務上,證明 MDM 配合適當推理策略能超越傳統方法,為未來 AI 在解決複雜邏輯與結構化問題中,提供新思路和技術手段。
  4. 加速推理並提升生成多樣性:未來可望推動 MDM 在更多自然語言生成、多模態生成甚至程式碼自動生成的落地應用,實現推理階段更高的並行性與彈性。

綜上所述,這篇論文革新性地剖析了 Masked Diffusion Models 在訓練與推理階段面臨的核心挑戰,並提出了用智慧的 token 解碼順序規劃去克服這些限制的方案。這不僅提升了模型在邏輯謎題上的解題能力,也為後續離散域生成模型的設計指明方向。對於正在尋求平衡訓練複雜性與推理效率的研究者及工程師來說,是一份不可多得的寶貴參考。


論文資訊
📄 Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
👥 Kim, Shah, Kontonis, Kakade, Chen
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.06768

CollabLLM: 從被動回應者到主動協作者的多回合互動革命

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域的快速崛起,它們日益成為人機對話與協作的核心引擎。然而,傳統LLM多以「下一輪對話回應」為訓練目標,著重於當下的回覆品質,忽略了多回合互動中對長期目標的優化。因此,當面對模糊、開放式的使用者請求時,這些模型往往表現為被動回應,無法主動推敲與引導,用戶最終意圖未能有效達成,對話過程也缺乏效率和深度。針對這一瓶頸,本篇榮獲ICML 2025 優秀論文獎的論文《CollabLLM: From Passive Responders to Active Collaborators》提出了一個創新框架——CollabLLM,力求讓LLM從被動問題回答者轉型為主動協作者,提昇整體多輪互動的效果與體驗。

研究背景與動機

隨著LLM在問答、文本生成、輔助編輯等應用的快速普及,如何讓模型真正理解用戶背後的複雜意圖,並在多回合的長程交互中不斷調整回應策略,成為學術與工業界關注的重點。傳統單輪或短程獎勵(next-turn reward)訓練限制了模型對長期目標的追蹤能力,模型容易陷入「淺層回應」的陷阱,導致溝通效率低下,且無法及時修正或引導用戶意願。作者團隊意識到,要提升LLM在人機協作的實用性,必須採用能評估長遠價值的多回合獎勵機制,並讓模型能夠主動挖掘、推斷使用者的潛在需求,而非僅僅等待明確指令。

核心方法與創新

CollabLLM的核心創新在於引入了多回合感知的獎勵機制(Multiturn-aware Rewards),並透過協作性模擬(collaborative simulation)來預估回應在整個對話流程中的長期貢獻。具體來說,作者設計了一套強化學習微調框架,使模型能夠在生成當下回覆時,同步評估該回覆對未來對話結果與任務成功率的正面影響。

方法流程主要包含:

  • 協作模擬環境:模型不單與真實使用者互動,也會在模擬環境中與另一個模型或規則化代理進行多回合對話,模擬可能的交互場景,從中累積長期獎勵信號。
  • 多回合獎勵函數:設計新型獎勵機制,除考量直接回應正確性,還涵蓋用戶意圖達成度、互動流暢性、以及後續對話中的價值貢獻。
  • 強化學習微調:基於Policy Gradient等演算法,利用多回合獎勵對模型策略進行調整,使其產生更積極主動的回應行為,例如主動詢問澄清問題、建議下一步行動、或預測用戶未表達的需求。

此外,為了衡量模型在多回合交互中的表現,作者團隊提出了包含「文件創建」等三個多回合複雜任務的評測基準(benchmark),此基準不僅量化任務完成度,也評估交互自然性與協作效能,迫使模型兼具效率與人性化。

主要實驗結果

在實驗中,CollabLLM在三大多回合任務上的表現顯著優於當前主流基線模型,整體任務指標平均提升了18.5%,顯示其在完成用戶需求方面更為有效。此外,模型的互動性經由由LLM作為評委的主觀評分提升了46.3%,足見其回應更具主動性與深度。

更令人印象深刻的是作者所進行的大規模用戶研究,包含201名專業評審參與。用戶滿意度較傳統模型提升了17.6%,而且平均節省了約10.4%的使用時間,顯示CollabLLM的主動協作不但提升了使用者體驗,還顯著提升了互動效率。

對 AI 領域的深遠影響

CollabLLM突破了傳統大型語言模型「被動回答」的框架,首次系統化且成功地將主動協作精神融入多回合人機互動中。這不僅促進了人機對話系統向更人性化、智能化的方向發展,也為後續研究建立了明確方向:

  • 長期目標優化的重要性:本研究強調多回合獎勵的設計,促使整個交互過程向長遠意圖靠攏,為強化人機協作提升效率與品質提供了理論及實踐樣板。
  • 主動交互策略的價值:CollabLLM展現了模型主動引導、深入洞察用戶意圖的潛力,這對未來語言模型在輔助決策、教育訓練、內容創作、客服支援等領域皆有重大的應用前景。
  • 多回合模擬環境的建立:作者提出的協作模擬框架,推動了用於訓練與評測更複雜智能助理的研究,將激發更多針對長期互動的演算法創新。

綜上,CollabLLM為AI人機互動注入了全新的協作概念,不僅是語言模型技術的一大進步,更是邁向真正智能化助理的重要里程碑。這篇論文的理論貢獻與實驗成果,預計將對未來智能代理系統的設計理念與實作方法產生深遠且持久的影響。


論文資訊
📄 CollabLLM: From Passive Responders to Active Collaborators
👥 Wu, Galley, Peng, Cheng, Li, Dou, Cai, Zou, Leskovec, Gao
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.00640

Data Shapley in One Training Run 深度解讀

隨著機器學習模型規模不斷擴大,尤其是基礎模型(foundation models)的預訓練規模達到數百億、數千億參數,如何量化訓練資料對模型性能的具體貢獻,成為近年來一項極具挑戰性的研究課題。Data Shapley in One Training Run這篇於 ICLR 2025 發表並獲得優秀論文表揚(Outstanding Paper Honorable Mention)的論文,由 Wang、Mittal、Song、Jia 等人提出,針對過去 Data Shapley 法在實務應用上的瓶頸,開發出一套革命性的「In-Run Data Shapley」方法,大幅降低資料歸因的計算複雜度,甚至只需一次訓練流程即可完成資料貢獻度評估,為資料價值衡量與管理帶來深刻影響。

研究背景與動機

資料在機器學習系統中是不可或缺的核心資產,然而不同行為的資料對模型績效的貢獻大小並不均等。Data Shapley是一種基於合作博弈論的理論框架,用以公平且原則性地分配資料點對模型整體效能提升的貢獻值。前人透過從原訓練集合中抽取不同子集並反覆訓練模型,以計算每筆資料對績效提升的邊際貢獻,進而合成 Shapley Value,為資料價值評估奠定理論基礎。

然而,這類方法面臨兩大重大限制:一是計算量極端龐大,因需多次重新訓練模型於各種資料子集合上,導致難以應用於大型神經網路及基礎模型預訓練;二是傳統Data Shapley必須假設模型訓練過程的隨機性及梯度優化路徑不變,取得的資料貢獻分數在不同訓練執行間並無差異,因此難以針對從單次訓練得到的特定模型做精確的資料歸因。

這些限制大幅阻礙了Data Shapley在產業與學術上的實際應用,迫切需要一種高效、可擴展、且具備針對性歸因能力的資料貢獻度評估新方案。

核心方法與創新

本論文提出的In-Run Data Shapley為一套創新技術,核心突破在於「將資料貢獻度計算直接嵌入模型的單次訓練過程中」,取代過去多次迭代重新訓練的模式。具體策略包括:

  • 動態權重調整機制:在模型訓練的梯度更新階段,作者設計了一組可微分的訊號,藉此追蹤每筆資料梯度在參數更新中的實際影響量,這使得資料價值能夠在訓練過程中即時反映並累積,而非訓練結束後離線計算。
  • 理論嚴謹的Shapley值近似:透過數學推導,保證該方法所得資料貢獻分數可近似於標準Data Shapley分數,即保持了公平性及原則性的理論保障,同時消弭了多次訓練冗餘運算。
  • 可擴展的實現架構:透過巧妙的演算法設計,該方法在額外計算資源上的成本甚微,與標準模型訓練的計算量幾乎相當,從而破除過去Data Shapley在大規模數據與深度模型上的瓶頸。

換言之,In-Run Data Shapley完成了兩項重大挑戰:一,能夠在單次訓練流程中對資料做出精確且忠實的貢獻度評估;二,保留了Shapley特有的公平性質及理論嚴謹度,但計算成本卻大幅降低,使得應用於基礎模型(如Transformer大型語言模型)的預訓練變得可行。

主要實驗結果

論文中作者透過大量實驗全面驗證該方法的有效性與實用性:

  • 小型神經網路與資料集測試:在CIFAR-10、MNIST等經典資料集上,In-Run Data Shapley所估計的資料貢獻度高度逼近傳統平均過多次重新訓練計算的Data Shapley值,且計算速度快數十倍到上百倍。
  • 大型基礎模型預訓練:首次實現對GPT等大型Transformer模型預訓練資料的即時貢獻分析,揭露不同資料子集對最終模型之文本生成質量及多樣性的貢獻差異。這是歷史上首見的將資料歸因直接整合在基礎模型巨量訓練中的嘗試。
  • 資料篩選與版權討論案例:研究並展示了如何依據In-Run Data Shapley結果,針對低質量、偏頗或可能涉及複製爭議之資料做出篩選,提高預訓練資料庫的整體品質,並對生成式 AI 領域的數據版權議題提出客觀依據。

對 AI 領域的深遠影響

本論文的提出,帶來多方面長遠影響:

  • 理論與實務的結合:過去Data Shapley理論美觀卻難落地,此次方法突破了計算和靈活性限制,促使資料價值評估從理論走向產業應用。
  • 大規模模型公正與可解釋性:隨著基礎模型成為 AI 發展核心,理解訓練資料貢獻成為用戶信任、模型審計與問責的基礎。In-Run Data Shapley提供了可行且精準的工具,幫助開發者釐清數據來源與影響,增進 AI 系統的透明度與道德規範。
  • 資料庫管理與優化:從資料篩選、清洗、增強到版權管理層面,優化預訓練資料集可以直接提升模型效能與公平性。新方法可實踐自動化、細粒度的資料品質管理,對資料治理尤為重要。
  • 版權與法律議題:數據貢獻度量化為生成式 AI 訓練資料版權分配提供了理論基礎,有助於未來建立公平的版權補償與責任歸屬體系,促使產業生態更加健康。

綜合來看,「Data Shapley in One Training Run」成功突破長期以來資料歸因面臨的計算瓶頸,以其創新理論與工程實現,為 AI 領域帶來一種全新且極具實用價值的資料評估範式。無論是學術研究者或工業界工程師,都能基於此架構,在未來大型模型開發與資料管理中大幅提升精度與效率,並推動生成式 AI 及數據版權等重要議題的進一步完善與規範。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

Learning Dynamics of LLM Finetuning

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域的廣泛應用,如何有效地對這些龐大的預訓練模型進行微調(finetuning),以滿足特定任務或使用者需求,成為當前研究的重要課題。然而,LLM 微調過程中模型行為的動態變化、內在機制及其對模型最終生成質量的影響,至今仍缺乏細緻且系統的解析。Ren 與 Sutherland 在 ICLR 2025 提出的論文《Learning Dynamics of LLM Finetuning》便從「學習動態」的角度出發,提出一套嶄新分析框架,系統性地解讀 LLM 微調過程中,模型對訓練樣本影響如何在不同回應間累積與傳遞,探究微調所帶來的行為改變與潛在風險,並進一步指引更有效的微調策略。本論文因其深刻洞察與廣泛適用性,榮獲本屆 ICLR 優秀論文獎(Outstanding Paper)。

研究背景與動機

近年來,LLM 以其強大的語言理解和生成能力在多種下游任務中獲得突破,但模型在預訓練階段所學知識尚無法完全滿足具體應用需求,故需透過微調來調整模型行為。常見微調策略包括指令調整(instruction tuning)和偏好調整(preference tuning),前者使模型更準確對齊人類指令,後者透過對偏好資料進行強化學習等方式優化回應品質。然而,微調過程中經常觀察到的「幻覺現象」(hallucination)——模型生成不正確或無關信息——尤其引發研究者關注。加上複雜的微調策略往往帶來非直覺的行為變化,例如 off-policy 直接偏好優化(DPO)運行過久反而降低輸出質量,這些都反映了現有對微調機制的理解尚不夠深入。

因此,作者希望建立一套理論架構,用以描繪「學習動態」(learning dynamics):即訓練過程中某筆訓練數據如何一步步累積影響模型對其他輸入的預測,藉此解開微調中各種現象背後的因果機制與互動關係。

核心方法與創新

本論文提出了一個系統性的「學習動態分析框架」,透過分解模型參數更新中不同訓練樣本對模型輸出影響的構成,具體來說,作者將微調過程視為一連串梯度步驟,每一步對模型輸出造成的影響可被追蹤和量化,此方法可統一解釋多種微調過程中觀察到的現象。核心創新點包括:

  • 影響累積的階段式解構:作者將影響力分解到每一個訓練步驟,細緻描述訓練樣本如何逐步塑造模型決策邊界與生成策略,有助於理解微調不是瞬間完成,而是動態累積的過程。
  • 跨回應影響分析:框架揭示了微調中,一個問題的回應上下文會如何「借用」另一問題的詞句或事實,導致了特定類型的幻覺現象。例如,模型在回答問題 A 時,可能不自覺重複問題 B 中出現的片段,因為訓練過程中這些資料互相影響。
  • 「壓擠效應」(squeezing effect)的提出:針對觀察到的 off-policy DPO 過度訓練會「抑制」即使是優質答案的生成概率的問題,作者認為這種壓擠效應是由微調過程中的影響累積方式導致,該理論為後續設計更穩健的優化算法提供了理論基礎。
  • 框架的廣泛適用性:不僅涵蓋指令調整、偏好調整,也能解釋多種變體算法的行為差異,該分析方法的通用性卓越。

主要實驗結果

作者選用多種公開及自建數據集,對 GPT 類架構進行多種微調策略實驗,結合學習動態框架做深入解析,主要發現包括:

  • 透過影響力分解,成功追蹤到模型生成中注入幻覺語句的來源,證明模型在微調過程中會因跨訓練樣本的相互作用產生不理想的資訊融合。
  • 在偏好調整的 off-policy DPO 實驗中,長時間訓練確實導致目標回應生成概率下降,框架的「壓擠效應」解釋與實際觀察高度符合,揭示優化過程中的潛在收斂風險。
  • 相比之下,on-policy DPO 及其變種的微調效果更加穩健,分析顯示其受益之處來自於訓練樣本影響力更集中且不易被壓擠,提升了模型對結構化偏好的捕捉能力。
  • 基於框架洞察,作者還提出簡單卻有效的微調改良策略,實驗中展示該策略能顯著提升模型的對齊度與生成質量,尤其在減少幻覺現象方面效果明顯。

對 AI 領域的深遠影響

《Learning Dynamics of LLM Finetuning》在理論與實務上均對大型語言模型的微調研究帶來突破性進展。首先,它開創性地將微調過程中影響力的時間序列累積拆解為可量化與可視化的學習動態,使得原本抽象的「微調效果變化」有了可解析的機制,讓研究者能更深入掌握模型學習的內在邏輯。

其次,通過揭示微調引發幻覺及策略退化問題的根本成因,該框架為模型安全性與可靠性提供了新的檢視視角。這對於日益重要的模型對齊(alignment)研究有著直接而重要的推動作用,尤其當我們期望 LLM 不僅強大而且精確、可信時,更需避免無意識的輸出錯誤信息。

此外,該工作對微調算法的設計與優化提供了實證基礎與理論指導,促進了偏好調整方法如 DPO 等策略的改良,幫助研究社群找到更有效且穩定的訓練流程,減少「過度優化」或「副作用」的出現。

最後,作者的學習動態分析方法具備高度通用性,未來可擴展至其他類神經網路或更廣泛的機器學習管線,對研究模型泛化、遷移學習及調整策略提供有力的工具,推動 AI 模型微調領域邁向更科學和系統化的發展階段。

總結來說,這篇論文不僅加深了我們對 LLM 微調行為的理解,也啟發出具有實務價值的改進方案,助力打造更智能、更安全的語言模型,具有重要的學術地位與實際應用價值。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域展現出突破性的能力,其在實際應用中面臨的安全性問題也日益突顯。這波研究由 Qi 等學者在 ICLR 2025 發表的論文《Safety Alignment Should Be Made More Than Just a Few Tokens Deep》,獲得傑出論文獎,揭露了現階段 LLM 安全對齊(Safety Alignment)存在的一個關鍵但被忽略的漏洞:安全對齊其實只「淺」地應用於生成文本的頭幾個詞元,導致模型易受到各種攻擊與繞過。本文將系統性地介紹該論文的研究背景、核心創新方法、實驗驗證,及其對 AI 安全研究的長遠意義。

研究背景與動機

隨著 LLMs 被廣泛部署於聊天機器人、輔助寫作等多領域,如何確保模型輸出符合人類價值與安全標準(簡稱安全對齊)成為焦點。目前主流的安全對齊技術多依賴微調或強化學習(如 RLHF),來引導模型避開有害語言與內容。然則,現有研究及實驗發現,即使是經過對齊的模型,仍極易被相對簡單的攻擊手法(例如詞彙後綴插入、解碼參數調整等)「越獄」(jailbreak),進而輸出危險或偏差內容。

本文提出,一個核心原因在於安全對齊往往只調整了模型的前幾個輸出詞元的機率分布,而對於生成序列中較後方的詞元缺乏足夠影響,導致模型在後續產生易被利用的「漏洞」,此即所謂的「淺層安全對齊」(shallow safety alignment)。這種對齊策略相當於只改變初期生成行為,忽視整段文本的連續性與一致性,使得安全性容易被攻擊者穿透。

核心方法與創新

論文深入闡述了淺層安全對齊存在的機制與實際案例,並從理論與實驗面驗證其普遍性。研究團隊首先通過案例分析揭示,多數現有的安全對齊策略,無論是預訓練後的微調還是解碼策略改變,都傾向於在生成過程的開頭幾個 token 上施加強烈約束,但對後續輸出權重調整不足,導致模型能在生成文字稍後階段表現出原始(未對齊)行為。

基於此觀察,作者提出了將安全對齊「加深」的概念,即不僅在生成初期,而是遍及整段文本的多個詞元階段,強化安全控制。具體技術上,本論文設計了一種正則化微調目標函數,在保持原本對齊約束的同時,加入限制模型對初期及後續 token 預測分布改動的條件,使對齊的影響可在序列整體更持久且穩固地發揮作用。

此外,研究團隊也評估了多種攻擊向量(如 adversarial suffix attacks、prefilling attacks、decoding parameter attacks 以及 fine-tuning attacks)下模型的脆弱性,並通過改進的微調技術展示如何在保持語言生成品質的前提下,有效減緩此類安全漏洞。

主要實驗結果

實驗部分作者以目前主流的 LLM 作為基礎模型,對比傳統僅在前幾 token 做安全對齊的模型,與新提出「深層安全對齊」模型在多種攻擊場景下的表現。結果清楚展現:

  • 淺層安全對齊模型在面臨 adversarial suffix attack(惡意後綴攻擊)時,模型容易被誘導輸出危險內容;
  • 相較之下,深層安全對齊模型對這類後綴攻擊展現出更高的魯棒性,攻擊成功率明顯降低;
  • 在 prefilling attack 與 decoding parameter manipulation(解碼參數操作)情境下,新方法同樣提升了模型的抵抗力,避免過早放鬆安全約束;
  • 針對 fine-tuning attack(微調攻擊),引入正則化微調目標後,模型在持續微調過程中仍保持較好的安全對齊特性,降低了對齊被逆轉的風險。

此外,作者分析了新方法對模型生成質量及多樣性的潛在影響,發現改進後的安全對齊方法並未明顯犧牲語言自然度與創造力,兼具安全性與實用性。

對 AI 領域的深遠影響

此篇論文在 LLM 安全對齊研究領域提出了全新的視角——安全策略不可只著墨於生成文本的開頭,而必須「深度」滲透模型生成序列的整體。這不只揭露了過去安全設計的一大漏洞,也為未來確保 LLM 長文本持久且穩健的安全行為提供了方向。從工程實踐角度看,此研究強調了對齊技術需重新思考「對齊深度」的參數,挑戰了現有主流微調與強化學習方案的根基。

更重要的是,該論文將多種已知攻擊類型統整於同一「淺層安全對齊」脆弱點的框架下,使得對抗研究不再孤立,促進多攻擊路徑的跨領域防禦策略融合。研究團隊所提出的正則化微調方法,為未來開發更安全可控的 LLM 打下了理論與實務基礎,對推動 AI 技術在醫療、金融、政府機構等需要極高安全性的敏感應用扮演關鍵推手。

綜合來看,Qi 等人在本論文中不只是揭露問題,更帶來了創新的對策,為提升人工智慧系統的社會可接受度與可信度指明重要一環。未來相關研究可進一步擴展「對齊深度」的量化標準,並結合更複雜的生成架構與多模態模型,持續加強 AI 安全防護的全面性與持久性。


論文資訊
📄 Safety Alignment Should Be Made More Than Just a Few Tokens Deep
👥 Qi, Panda, Lyu, Ma, Roy, Beirami, Mittal, Henderson
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2406.05946

KAN: Kolmogorov-Arnold Networks 深度解讀 — ICLR 2024 傑出論文獎作品

在當代深度學習的架構中,多層感知機(MLP)扮演著基礎且不可或缺的角色。無論是在自然語言處理、電腦視覺,還是科學計算的神經網路中,MLP 作為核心模組多被用來學習複雜的非線性映射。然而,傳統的 MLP 節點激活函數通常是固定且不可訓練的,如ReLU、Sigmoid等,而邊權重則為線性標量。這也意謂著模型的參數空間和結構在一定程度上受限,無法靈活適配多種數據和應用場景。ICLR 2024 傑出論文“KAN: Kolmogorov-Arnold Networks”由劉劍等人突破這項限制,提出一種基於經典數學理論的全新神經網路架構——Kolmogorov-Arnold Networks(KAN),成功將數理定理與機器學習相結合,帶來訓練效率、表達能力和解釋性三重提升。

研究背景與動機

Kolmogorov-Arnold 表示定理是數學界對任意多變量連續函數表達的一項重要理論,其核心在於將高維函數表示為數個一維函數的組合。此定理啟發團隊重新思考傳統 MLP 架構中「節點激活函數不可學習、權重為純量」的框架限制。傳統 MLP 權重是純數值,但能表示的非線性變換有其侷限,且較難被直覺理解。團隊想像,如果將「權重」參數變成可學習的單變量函數,而不是單一係數,是否能提升網路的表達力與泛化效果?更重要的是,是否能帶來更好的模型解釋性,有助於揭露數據的內在結構,甚至協助科學家發現隱含規律?

核心方法與技術創新

KAN 的最大創新在於徹底顛覆 MLP 以線性權重做連結的思維。傳統 MLP 中,每個節點的輸出公式為激活函數作用於權重與輸入的點積。KAN 把每一條連結(邊)上的純數字權重拿掉,取而代之的是「可參數化的一維函數」,並以樣條(spline)函數形式來建模這些函數。換言之,每條邊都是一個函數映射,將節點輸入值映射到輸出值,這使網路的非線性表達更加靈活且多樣。

具體來說,KAN 中沒有線性權重,而是由一系列經過訓練的單變量樣條函數串接組成。激活函數不再侷限於節點,而是分佈在線路上,形成一種「功能更強大的邊激活」機制。此架構自然符合 Kolmogorov-Arnold 定理中將高維函數拆解成一維函數組合的思想,是理論與架構上的一大突破。

由於每條邊代表一個單變量函數,KAN 模型可利用可視化工具直觀展現函數形式,提升模型的透明度與人機互動性。這點對於解釋型 AI 研究尤其有價值,不僅幫助開發者理解模型行為,也為科學研究提供了洞察力。

主要實驗結果與優勢分析

團隊在多項醫學函數擬合與偏微分方程(PDE)求解實驗中,比較了 KAN 與標準 MLP 的性能。結果顯示:

  • 更高的精準度:KAN 在數據擬合任務中,為達到甚至超越 MLP 同等效果,其總參數量通常少了好幾倍。換句話說,KAN 更節省樣本與模型容量卻不損失效果。
  • 快速的神經擴展規律:理論分析與實驗皆表明,KAN 在隨模型規模擴大時,其誤差下降速度較傳統 MLP 更快,展現出更優良的神經網路擴展性(neural scaling law)。
  • 優秀的解釋性:由於每條邊為可視化單變量函數,研究者可以直接觀察到網路中各個輸入變數通過網路的非線性轉換形態,使得模型行為變得易於分析與改進。

此外,作者展示了兩個跨領域的應用示例,分別為數學與物理領域,利用 KAN 協助重新發現傳統的數學函數結構與物理定律,證明其並非僅為單純的黑盒模型,而是科學發現的強力工具。

對 AI 領域的深遠影響

KAN 的提出,開啟了神經網路架構設計的一條嶄新道路。它不僅挑戰了已有深度學習模型中固定激活與線性權重的習慣,還提供了一套結合經典數學理論與深度學習的新思維模式:

  1. 數學定理指導下的網路結構創新:利用 Kolmogorov-Arnold 理論作為架構設計啟發,鼓勵未來研究者探索更多古典數學工具在深度學習中的應用。
  2. 提升模型解釋性與人機交互:KAN 的可視化特性促進模型透明化,為解釋型 AI 研究提供範例,利於產業與科研中的採用與信任建立。
  3. 更高效的模型訓練與泛化:由於參數空間從純標量轉向函數空間,KAN 展示出更具彈性且縮減參數的特性,為資源有限環境與少樣本情境提供更佳選項。
  4. 跨領域科學挖掘輔助:KAN 成為數學和物理等自然科學領域發現隱含規律的計算工具,有潛力推動科學探索新型態,結合 AI 與傳統科學知識。

總結而言,KAN 不僅提供了 MLP 的有力替代方案,也擴展了深度學習架構創新的視野。基於可學習的單變量函數替代線性權重,得以兼顧準確度、效率和可解釋性,成為引領未來神經網路設計的重要里程碑。隨著後續研究持續深入,我們有理由期待 KAN 在實務應用、跨科學領域與基礎理論等多個方向帶來更多突破,進一步推動人工智慧走向更智慧、更透明的未來。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

Mamba: Linear-Time Sequence Modeling with Selective State Spaces 深度解析

隨著深度學習技術的迅猛發展,Transformer 架構因其強大的序列建模能力,已成為基礎模型(foundation models)中的主流方案,廣泛應用於語言、視覺、語音、基因序列等多種模態。然而,Transformer 的核心組件──自注意力機制(self-attention)在長序列處理時計算成本呈現二次方增長,使得處理非常長的序列時面臨計算和記憶體瓶頸。為了降低此類負擔,業界與學術界一直在探索次二次時間複雜度(sub-quadratic)的序列建模架構,如線性注意力(linear attention)、門控卷積(gated convolution)、循環模型以及結構化狀態空間模型(Structured State Space Models, SSMs),但這些替代方案在處理語言等離散模態時,往往在性能上仍不及傳統 Transformer。

一、研究背景與動機

傳統 SSMs 雖然在長序列的計算效率上具有理論優勢,能做到線性時間複雜度,且理論上具備捕捉長距離依賴的能力,但實務上卻存在一個關鍵瓶頸──缺乏基於內容(content-based)的選擇性推理能力。換句話說,這些模型在序列中以統一且固定的狀態轉移參數傳遞信息,無法針對當前輸入 Token 決定保留或遺忘哪些訊息,這在語言等離散資料的序列建模上造成明顯劣勢。這一問題直接影響了 SSM 在重要應用場景中的表現,限制了其廣泛應用。

Gu Dao 等人在其論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》(ICLR 2024,Outstanding Paper)中,針對上述限制提出全新解決方案。他們主張:透過讓 SSM 的狀態轉移參數可根據輸入資料動態調整,賦予模型選擇性「記憶」與「遺忘」的能力,便能大幅提升 SSM 在離散模態與長序列建模上的表現。

二、核心方法與技術創新

1. 選擇性狀態空間模型(Selective State Spaces)
論文的核心貢獻是提出一種稱為「Selective State Spaces」的機制,突破傳統 SSM 固定參數的限制。具體來說,他們設計了一套可依據當前輸入 Token 動態調整狀態轉移矩陣和輸出矩陣的參數生成函數。這使得模型可以根據內容決定哪些歷史信息應該被保留、哪些應被忘卻,類似 Transformer attention 的「聚焦」效應,但又保持了線性時間複雜度。

這種設計的挑戰在於,動態參數化使得模型無法再直接利用高效的傅立葉變換卷積等演算法,但作者巧妙設計了針對硬體友好(hardware-aware)的並行遞歸演算法,在不犧牲計算效率的前提下,仍能維持快速推論的能力。

2. Mamba 架構設計
基於上述 Selective SSM,作者進一步構建了一個極簡化的端到端神經網路架構──Mamba。這個架構完全省略傳統 Transformer 中的自注意力層與多層感知器層(MLP),只藉由多層堆疊的 Selective SSM 模組實現序列建模。

Mamba 的特色包括:

  • 線性時間複雜度與序列長度擴展性,適合處理百萬級長度的序列
  • 硬體優化且並行遞歸計算方案,使推論吞吐量達到傳統 Transformer 五倍以上
  • 一體化的動態狀態調節能力,提升對離散與連續模態的適應力

三、主要實驗與結果分析

為驗證 Mamba 的效果,作者在多個序列建模核心任務上進行了嚴謹實驗,涵蓋語言建模、語音識別、以及基因序列分析等多模態領域。

1. 語言模型性能
在最具代表性的語言建模任務中,尺度達 3 億參數的 Mamba-3B 模型,不但在預訓練階段達成超越相同規模 Transformer 模型的效果,更驚人的是,其性能相當於傳統 Transformer 6 億參數模型(約兩倍規模),展示了顯著提升的參數效率。

2. 長序列推論效率
Mamba 以線性時間複雜度處理長序列,可輕鬆擴展至百萬字元長度的序列,並在推論速度上實現超過 5 倍於 Transformer 的吞吐量。這對於需要長距離上下文信息建模的任務極具價值,突破以往 Transformer 在長序列時段計算瓶頸。

3. 多模態泛化能力
除此之外,Mamba 在語音和基因組資料的建模上均取得了當前最先進的競賽結果,證明其所設計的選擇性狀態空間不僅限於語言模態,也具有廣泛的實用性。

四、對 AI 領域的深遠影響與未來展望

Mamba 所展現的創新,對序列模型領域具有突破性的啟發意義:

  • 突破線性模型的表現瓶頸:過去 SSM 及其他線性時間模型難以挑戰 Transformer 是因為缺乏內容敏感的記憶調控機制。Mamba 以 Selective State Spaces 成功填補這一缺口,為後續研究打開新的思路。
  • 計算效率與模型容量平衡的典範:Mamba 兼具極高的計算效率及強大表現,這對於超大規模基礎模型尤其重要,隨著模型尺寸及資料集變得更龐大,Mamba 提供了可行的技術路徑。
  • 多模態泛化能力:論文展示此架構在語言、音訊、基因組等多種序列模態均有亮眼成績,表明 Selective SSM 模型極具泛用性,有望成為未來多模態基礎模型的重要組成。
  • 硬體與軟體協調的設計範例:作者設計的硬體友好並行演算法彰顯了深度學習理論與實務硬體優化結合的必要性,未來 AI 加速器與模型設計更緊密結合的趨勢也被再次強調。

整體而言,Mamba 不僅是對現有 Transformer 及其變種的強有力挑戰,更為序列建模技術的理論與實踐提供了豐富的創新方案。未來,我們可期待基於 Selective State Spaces 的進一步擴展,結合更多領域的專屬知識,催生更高效且強大的序列模型架構,在自然語言處理、多媒體理解、生物資訊等領域持續推動 AI 技術的革新。


論文資訊
📄 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
👥 Gu, Dao
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2312.00752