2026年5月7日 星期四

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

隨著大型語言模型(Large Language Models, LLMs)技術的迅速發展,基於「下個字元預測(next-token prediction)」的訓練方式已成為主流。然而,這種方法在面對需要創造性與長遠規劃的任務時,顯露出其先天的侷限性。2025 年 ICML 傑出論文《Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction》由 Nagarajan 等人發表,針對當前語言模型在創造力表現的瓶頸,提出了一套具有代表性且可控的極簡演算法任務(minimal algorithmic tasks),重新定義並實證語言模型創造力的限界與突破方向,為 AI 創造性表現的研究帶來重要啟示。

研究背景與動機

語言模型的訓練核心在於預測文本序列中下一個最有可能出現的字元或詞彙,這種「一步接一步」的策略雖然造就了驚人的語言理解與生成能力,卻有一個內在限制:模型目標是讓每一個生成步驟看起來「最合理」,但並不刻意進行長期計畫或全局探索。換言之,傳統的「next-token prediction」本質上是近視(myopic)策略,缺乏為達成遠大目標而在多步生成中進行探索與嘗試的能力。

現實中許多開放式任務,如創造性寫作、類比推理、科學研究以及新穎問題設計,都需要模型具備隱含的「隨機規劃能力」(stochastic planning),突破現有知識框架,挖掘新連結,創造新結構。然而,目前多數模型在這些領域的表現往往侷限於模仿訓練數據,缺乏真正的創新能力。

核心方法與創新

本論文的首要貢獻是設計一組極簡演算法任務,這些任務抽象化並模擬了開放式創造性的實際挑戰。任務主要分為兩大類:

  • (a)連結發掘類:透過在抽象的知識圖(knowledge graph)中隱含規則,要求模型透過推理與探索來發現全新關聯,模擬語言中的文字遊戲、類比關係挖掘和科研創新。
  • (b)結構構造類:需模型創造規則性模式,例如設計數學問題或新型蛋白質序列,考驗模型構建複雜結構的能力。

該研究強調,單純基於「下一字元預測」的模型天生「目光短淺」,因為每一步生成都是針對當下最可能的字元,而缺少組合多步選擇以達成宏觀目標的能力。為此,作者引入「無教師訓練(teacherless training)」與「擴散模型(diffusion models)」兩種多字元生成的技術,前者藉由讓模型自主探索多步生成路徑,後者則在生成過程中逐步去噪重構,兩者均能在開放式、不確定的任務中展現更高的多樣性與原創性。

此外,論文針對生成中「如何平衡隨機性與連貫性」提出新見解。傳統上,常用「溫度採樣(temperature sampling)」從輸出層增加隨機性,但會導致文本一致性下降。論文戰略性地將噪聲注入模型輸入層,稱為「種子條件(seed-conditioning)」,這不僅保持了較佳的連貫性,在某些情況下甚至優於傳統溫度採樣,成為控制創意與合理性的有效手段。

主要實驗結果

透過所設計的極簡任務組,作者進行系統性比較與分析,結果顯示:

  1. 基於下一字元預測的模型於開放式創造任務上的多樣性及創新能力明顯不足,生成結果多偏向平滑保守,缺少突破性的思考跳躍。
  2. 無教師訓練與擴散模型展示出顯著提升,生成的路徑在探索未知知識圖連結或結構組合時更為多樣和富有創新,亦更好地完成了多步推理與規劃任務。
  3. 在隨機性注入策略方面,種子條件的效果出乎意料地好,不僅保持語意連貫,還促使模型在抽象搜索空間中得以更有效率的隨機跳躍,提升了模型進行「遠見決策(far-sighted leap)」的能力。

該系列實驗提供了清晰且可重複的分析平台,促使研究者能精確量化語言模型在創造力方面的瓶頸與突破點。

對 AI 領域的深遠影響

此研究在理論與實務層面均激起重大反思與啟示。首先,它挑戰了現有大型語言模型過度依賴「下一字元預測」的主流訓練思維,指出此方法固有的時間短視問題及創造力的天花板,提示我們未來要超越模仿—走向真正的自主創新與長期策略規劃能力。

其次,論文提出的極簡化任務及探索框架,提供了 AI 創造力研究中一套標準化的測試床,讓後續研究能在可控環境中精確比較不同生成機制與策略,有助於推動創意 AI 的系統化發展。

此外,種子條件的噪聲注入方法也暗示了生成模型未來可以在結構化的隨機控制上做出更多嘗試,而非單純仰賴標準采樣方式,這有望改寫生成模型中隨機性與一致性的傳統爭論,從而激勵更靈活與智能的生成機制。

總結來說,Nagarajan 等人透過理論嚴謹且實驗充分的論證,推動我們重新審視語言模型生成的本質限制及未來可行突破路徑,為 AI 創新能力的提升開闢出一條新穎且締造性極高的研究藍圖。對研究生與工程師來說,本論文提供了必讀的視角切入點,理解並思考如何設計更智慧、更具前瞻性思考能力的 AI 系統,是未來創造智能 agent 的重要基石。


論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266

Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

隨著生成式模型在自然語言處理與結構化數據等離散領域的廣泛應用,如何有效且靈活地生成高品質序列成為研究熱點。傳統自回歸模型(Autoregressive Models, ARMs)因其簡單的結構與高效的序列生成方式,在各類任務中取得不錯成績;不過,ARMs 生成過程必須依據固定的從左至右(或特定)順序逐步解碼,缺乏彈性,且在長序列上存在累積誤差與推理速度瓶頸。近年來,Masked Diffusion Models(MDMs)作為一種新型生成法,提出了截然不同的訓練與推理策略:訓練時面對海量的填空(infilling)問題,推理時則能彈性調整生成順序,實現更高效且多樣化的解碼。

此篇由 Kim 等人於 ICML 2025 發表並榮獲傑出論文獎的作品《Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions》,系統性剖析了 MDMs 在訓練與推理階段各自面臨的複雜性挑戰與潛力,並提出創新性的 adaptive decoding 策略,大幅提升模型在各種「邏輯拼圖」類問題上的解答能力,甚至超越參數量幾倍於其的自回歸模型。

研究背景與動機

生成式模型主要聚焦於如何將機率分布有效擬合並生成數據,其中自回歸模型因為條件概率鏈式分解的特性,直覺且訓練穩定。但這類模型的局限在於「固定的生成順序」,既限制了推理時的彈性,也在複雜任務中面臨錯誤累積的挑戰。反觀 Masked Diffusion Models,透過「隨機遮蔽(掩碼)」多樣化序列塊,訓練模型學會填入任意遮蔽的部分,理論上可在推理時自由選擇生成順序,以靈活因應不同難度的生成子問題。

然而,MDMs 的訓練面臨著「指數級子問題數量激增」的挑戰,因為模型不僅要學會在所有可能的遮蔽配置下生成正確序列;另外,在推理階段,如何選擇最佳的生成順序則成為尚未明確的研究議題。這兩方面分別形成了理論與實踐中的關鍵障礙,促使作者深入探討「訓練的最壞狀況」與「推理的最佳計畫」間的平衡。

核心方法與創新

作者首先從理論層面分析 MDMs 訓練複雜性,透過嚴謹推導證明相比自回歸模型,MDMs 訓練須平均解決指數多的遮蔽補全子問題,這使得訓練過程計算負擔遠大且包含潛在難解的子問題,形象地被詮釋為「train for the worst」——意即必須承受最嚴苛的子問題訓練壓力。

在推理階段,核心創新是動態調整 token 解碼順序的 adaptive decoding 策略。作者設計一套基於當前已生成 token 的不確定性估計與推理難度評估,能夠主動避開複雜且高錯誤率的生成步驟,優先解碼較簡單或線索更充分的 token,以「規劃最佳生成路徑(plan for the best)」。該策略兼顧靈活性與解決問題的效率,彌補傳統固定順序解碼無法調整的限制。

整體方法架構兼容各類離散結構數據,且不需額外設計特定生成順序的教師強制學習(teacher forcing),反而依靠訓練後的靈活推理策略大幅提升效能。此特質讓 MDMs 彷彿擁有學習「通用解碼能力」的潛力,而非固定路徑的生成技巧。

主要實驗結果

為了驗證方法效用,作者廣泛評測了多種離散生成任務,重點實驗聚焦於複雜程度高的邏輯難題,如 Sudoku 解題。實驗結果極具說服力:

  • 在未使用 adaptive decoding 策略時,預訓練 MDMs 在 Sudoku 任務上的解題成功率不足 7%。
  • 引入 adaptive decoding 策略後,解題準確率激增至約 90%,顯示出極大推理靈活度帶來的效能飛躍。
  • 該 MDM 模型不僅顯著領先無此策略的同類模型,更優於參數量約七倍、且透過教師強制方式強制學習固定解碼順序的自回歸模型。

此外,在不同序列長度與結構多樣的生成任務中,動態解碼策略同樣展現強健的適應性,以更靈活的順序規劃避免生成過程中的瓶頸與錯誤累積,明顯提升整體生成質量與效率。

對 AI 領域的深遠影響

本論文的最大貢獻在於深刻揭示了 Masked Diffusion Models 在訓練與推理兩端的核心矛盾,並提出一條切實可行的解決之道。以往離散生成模型多半受限於固定解碼順序,限制了推理彈性與適應複雜情境的能力;而本研究透過「為最壞情況訓練、為最好情況推理」的設計理念,使得 MDMs 不再是學習一成不變的順序,而是能靈活「規劃」生成過程,開啟了離散序列生成新範式。

對於 AI 生成模型的設計哲學來說,本論文強調了訓練與推理策略應該相互補充並動態調整,而非僅以固有模式任意折衷。此視角具有廣泛延展性,不僅能激勵未來在自然語言、程式碼生成、圖論等領域中利用類似思路大幅提升生成質量和效率,也為推理順序問題提供了新穎的理論與實踐框架。

此外,本研究中手動設計的 adaptive decoding 策略亦有潛力與強化學習、元學習(meta-learning)等自動策略結合,進一步推動「最優推理路徑」的自動搜尋與調整,促使離散生成模型在複雜真實世界任務中更具泛化力。整體而言,這篇論文不僅是離散生成模型領域的重要里程碑,也為未來多樣化序列生成與靈活推理提供了理論指引與技術基礎。

綜合來說,Kim 等人的《Train for the Worst, Plan for the Best》一文,以清晰的理論分析、創新的 adaptive decoding 設計,以及嚴謹的實驗驗證,成功突破了 Masked Diffusion Models 訓練與推理的雙重瓶頸,為離散領域生成模型的未來發展開闢了新方向,值得 AI 研究者與工程師深入研讀與借鑒。


論文資訊
📄 Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
👥 Kim, Shah, Kontonis, Kakade, Chen
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.06768

CollabLLM: 從被動回應者到主動協作者的多輪人機合作新典範

近年來,隨著大規模語言模型(Large Language Models, LLMs)在自然語言處理領域的進步,AI助理在多種應用場景中扮演重要角色,從客服聊天、知識問答到創作輔助等。然而,現行主流的LLM訓練方法多採用基於「下一輪回應」的獎勵機制,即模型僅被強化學習去優化立即的回答品質,而忽略了對多輪長期互動的整體優化。這種「短視」訓練策略使得模型在面對模糊、開放式的用戶需求時,常常只能被動回應,難以深入挖掘用戶潛在意圖,進而導致對話效率低落,使用者體驗不佳。

本論文《CollabLLM: From Passive Responders to Active Collaborators》針對上述挑戰,提出一個嶄新的訓練架構—CollabLLM,旨在開創一種多輪互動中更加積極合作的語言模型。其核心理念是讓模型不再只是被動回答問題,而是主動探究用戶的長遠目標,並提供深入且具啟發性的建議,成為真正的人機協作者。

研究背景與動機

傳統的LLM訓練多依賴標準的下一句預測或有限的即時回饋,忽略了多輪對話中各輪回答需承擔的長期影響。結果就是,對於用戶提出的模糊指令或複雜目標,模型往往局限於字面回應,而不會主動提出澄清問題或引導對話。這使得用戶必須不斷修正和澄清需求,造成效率低下且體驗不佳。此外,現有的評測標準多聚焦於單輪回答質量,尚缺乏針對多輪交互深度合作能力的量化指標,限制了模型整體合作能力的提升。

核心方法與創新

CollabLLM框架的創新點主要體現在兩大關鍵設計:

  1. 協作模擬(Collaborative Simulation):該部分使用一種多輪互動模擬策略,模擬人機對話多輪過程,並根據整個對話流程中每輪回應對最終任務完成的貢獻進行評估。這種模擬遠超過傳統以單回合回應為單位的獎勵,具備全局視角,能準確捕捉每一次回答對後續互動的正面影響。
  2. 多輪感知獎勵(Multiturn-aware Rewards):基於協作模擬產生的評估,設計一套專門衡量多輪對話長期效果的獎勵函數。這套獎勵不僅考量回答的即時準確度,更重視回答如何促進用戶最終達成目的、以及對話的流暢性與互動深度。透過增強學習對模型進行微調,模型被激勵去探索、挖掘用戶潛在需求,並主動提出建議或澄清問題。

此外,作者團隊特別設計了一套多輪互動的基準測試(benchmark),涵蓋三個具挑戰性的任務,包括文檔創作等,來全面評估協作模型在真實應用場景中的效能。這種基於實際任務的評測方法,使研究成果更具說服力與應用價值。

主要實驗結果

在多輪互動基準測試中,CollabLLM展現極為優異的性能表現。與強力基線模型相比,CollabLLM在任務完成率上平均提升了18.5%,說明模型在協助用戶達成複雜目標方面效率顯著提高。更值得注意的是,在由專業LLM評審團隊根據互動質量(包含回答深度、主動性及協作感)進行打分的結果中,CollabLLM提升了46.3%,凸顯其在多輪合作上的明顯優勢。

為了驗證模型的實際價值,作者們進行了一項包含201名人類評審的用戶研究。研究顯示,使用CollabLLM的交互流程不僅使得用戶整體滿意度提升了17.6%,且平均節省了10.4%的使用時間,突顯出模型在改善使用體驗與提升工作效率方面的重要突破。

對 AI 領域的深遠影響

CollabLLM不僅在技術層面提出了從短視回應到長期合作的模型訓練新範式,更從根本上挑戰了人機交互的傳統觀念。通過將語言模型從被動的工具角色轉變為積極的合作夥伴,本研究推進了「人機協作」的前沿,讓AI更貼近人類溝通的本質需求。

長遠來看,這類具備多輪長期優化能力的語言模型將在諸多領域開啟新契機,包括:專業諮詢助理、教育輔導、創意策劃輔助等。它們能主動理解並促進用戶目標,顯著提升AI的實用性與用戶黏著度。同時,CollabLLM提出的多輪獎勵設計和評測體系,也為未來多輪語言模型訓練及評估提供了重要參考範本,促進整個社群在發展更具人本設計的對話系統上協同進步。

綜合而言,CollabLLM開創了一條向「主動合作」演進的道路,消弭了過去語言模型在多輪互動中被動應答的侷限。這份榮獲ICML 2025「Outstanding Paper」獎項的研究,在技術創新與實際應用層面皆具有突破性意義,為AI在人機協作時代的發展奠定了深厚基礎。

未來的研究可沿著CollabLLM方向,進一步探討更大規模、多樣場景的多輪強化學習策略,並與跨模態(如視覺、聲音)交互結合,以打造更加智慧且具備先見性的人機智能合作體系。


論文資訊
📄 CollabLLM: From Passive Responders to Active Collaborators
👥 Wu, Galley, Peng, Cheng, Li, Dou, Cai, Zou, Leskovec, Gao
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.00640

Data Shapley in One Training Run - ICLR 2025 Outstanding Paper Honorable Mention 深度解讀

隨著機器學習模型與人工智慧系統規模的持續擴大,理解訓練資料中每筆數據對最終模型性能的貢獻,成為研究與實務中一項關鍵挑戰。傳統上,Data Shapley 作為一套理論上具有高解釋力的資料貢獻歸因方法,能量化每筆訓練數據對模型結果的重要性,幫助研究者挑出關鍵數據、審查異常資料、甚至鑑別數據版權問題。然而,既有的 Data Shapley 計算方式需要反覆重新訓練模型在不同數據子集上,導致極大的運算成本,幾乎無法應用在大規模或基礎模型(foundation model)預訓練階段。除此之外,傳統方法的分數針對整個學習算法產生的任一相同分布模型,缺乏對「特定單次訓練結果」的歸因能力,限制了它在真實訓練流程中的針對性與精確度。

在這樣的背景下,Wang、Mittal、Song 及 Jia 於 ICLR 2025 發表的論文《Data Shapley in One Training Run》提出了一套全新且極具創新的解決方案 —— In-Run Data Shapley(以下簡稱 IR-DS),首次實現了「一次訓練過程中即完成資料價值歸因」的目標,大幅克服了過去 Data Shapley 在計算效率與應用彈性上的瓶頸。

核心方法與創新

本論文的核心貢獻是設計出在針對**特定一次訓練完成之模型**(即你手上實際訓練出的模型)進行資料貢獻度衡量的全新框架。具體而言,IR-DS 利用優化過程中模型參數隨時間的演化資訊,結合對模型訓練動態的理論分析,直接在一次完整訓練跑完的過程中,實時計算出每筆訓練數據對最終模型性能的邊際貢獻。這與傳統需要針對各個子資料集重訓模型的作法截然不同,避免了冗長的重訓流程。

該方法技術基礎依賴於對梯度更新軌跡的跟蹤與高效的「摺疊式積分」計算方式,將在每個批次對模型參數的貢獻分攤至該批次內的單筆資料。這步驟不僅維持了理論上的公平性與精確度,同時讓整個 Data Shapley 分數的估計變得可在單次訓練中完成,幾乎沒有顯著增加原本訓練的計算負擔。

此外,IR-DS 還展現了靈活調整分析對象的能力,能針對具有明確目的、特定超參數與隨機初始值下的模型,量化資料貢獻。這解決了傳統方法「只能對整體演算法下產生的模型群給出一致分數」的限制,使得資料的貢獻度更具針對性與解釋力。

主要實驗結果與案例分析

作者團隊在多個大型公開資料集與真實世界基礎模型的預訓練階段進行了詳細的實驗驗證。最令人震撼的是,他們成功部署 IR-DS 技術於典型的變形金剛(Transformer)架構的基礎模型預訓練,這是過去任何 Data Shapley 技術望塵莫及的挑戰。

實驗結果顯示,IR-DS 能準確鑑別出對最終模型泛化性能或特定測試任務貢獻顯著的資料點。以語言模型為例,IR-DS 幫助揭示了特定類別文本資料對模型生成質量的提升度,有助於理解不同資料分布與模型能力之間的關聯。此外,在圖像分類任務中,它還能識別出含有噪聲或誤標記的低質量資料,有效為數據清理與再標註提供決策依據。

更值得一提的是,作者將 IR-DS 應用於生成式 AI 領域的著作權議題分析。他們透過量化各資料集與單筆資料對生成模型內容創造的貢獻,為業界討論「數據版權」與「模型訓練數據來源可信度」提供了重要實證工具,具備極強的社會與法律意涵。

對 AI 領域的深遠影響與應用前景

IR-DS 不僅在技術層面實現了一次訓練跑完就獲得資料貢獻度的革命性突破,其背後所帶來的理念與應用潛力,將長遠影響 AI 研究與產業多個關鍵面向:

  • 超大規模模型訓練的資料管理:隨著基礎模型與自監督學習盛行,訓練資料量動輒億級起,傳統評估方式根本行不通。IR-DS 的高效性為這類模型「即時、可擴展」的資料品質監控與挑選打開可能。
  • 數據版權與生成 AI 法律問題:針對生成式 AI 的內容創造歸屬權爭議反覆上升,IR-DS 為量化「誰的數據對模型影響最大」建立了嚴謹工具,能具體支持版權聲索或數據合約檢證,推動標準化與合規研究。
  • 模型訓練安全與公平性分析:借助明確的資料貢獻度指標,能辨識訓練資料中潛在的偏見數據或惡意攻擊樣本,提升模型的安全性與公平性,助力負責任 AI 建設。
  • 新型訓練策略與資料增強指導:IR-DS 提供的資料重要性視角,能指導如何有效篩選、加權資料,甚至設計更具針對性的資料增強方法,使模型訓練更高效、穩健。

總結而言,Wang 等人所提出的《Data Shapley in One Training Run》不僅突破了傳統 Data Shapley 計算成本過高的技術瓶頸,更將資料貢獻度分析推向可以被大規模及工業場景實際應用的階段。此創新方法不僅提升了模型訓練過程的透明度,也對資料科學、模型治理與法規合規等跨領域議題提供了強力支撐,是 AI 領域中理論與實務結合的典範之作。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

2026年5月6日 星期三

Learning Dynamics of LLM Finetuning

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域的廣泛應用,如何有效且安全地對這些模型進行微調(finetuning)成為關鍵議題。傳統上,我們往往以最終模型的效能指標來評估微調效果,但對「微調過程中模型學習行為的動態變化」缺乏深入了解。ICLR 2025 年由 Ren 與 Sutherland 所提出的論文《Learning Dynamics of LLM Finetuning》即針對此問題,提出一套系統性框架,用以解析微調過程中模型對不同訓練樣本的學習影響如何逐步累積並相互作用,從而揭示微調本質與行為變化背後的機制。

研究背景與動機

大型語言模型微調技術的多元化與複雜化,使得模型行為經常出現難以預料的副作用。舉例而言,微調後模型可能會強化「幻覺」(hallucination)現象,例如回答問題時錯誤套用其它問題的資訊、重複簡單且無意義的短語等。這類問題嚴重影響模型的可靠性與實用性。雖然已有多種微調策略如指令微調(instruction tuning)、偏好微調(preference tuning)、及直接偏好優化(Direct Preference Optimization, DPO)應用於提升模型表現與 alignment(對齊),但這些技術的內部學習過程及相互影響卻鮮少被量化與解析。

因此,作者提出學習動態(learning dynamics)的概念,透過分析模型每一訓練步驟對不同回答選項累積影響的分解,建立一套統一觀點,系統性理解微調過程中的模型行為演變。更重要的是,這種理解不僅解釋了現象,還能指引改善策略,提升模型效能與安全性。

核心方法與創新

本論文的核心創新在於建立了一套「學習動態分析框架」,其設計理念為:

  • 步驟分解的影響累積模型:將微調過程視為一系列更新步驟,分析每一步對模型不同潛在回答的影響如何累積起來,並計算這些影響之間的相互作用與轉換。這種逐步解析使得可以追蹤細微的行為模式變化。
  • 統一解釋多種微調方法:此框架同時涵蓋指令微調和偏好微調的主要算法,統一解釋訓練過程中典型觀察到的行為差異與共通機制,避免以往分散且無統一理論支撐的片段式理解。
  • 針對幻覺現象的假設性解釋:透過動態影響分解,作者提出模型在回答問題A時可能不自覺借用回答問題B中的用語或事實,其實是微調過程中跨樣本影響累積的結果。這解釋了幻覺現象的內生原因,為未來針對性干預提供線索。
  • 揭示「擠壓效應」(squeezing effect):此為論文中對於偏好微調中特殊行為的獨特洞察。作者發現,在 DPO 這類離策略(off-policy)優化方法中,若迭代過久,模型甚至會讓理想答案出現機率降低,這與影響累積過程中「擠壓」重要資訊的現象相關。此發現解釋了先前困惑的退化行為,並區分了離策略與在策略(on-policy)DPO的差異。

主要實驗結果

論文中作者透過精心設計的實驗組合驗証該框架的有效性,涵蓋:

  • 指令與偏好微調行為追蹤:比較多種微調方法在訓練過程中模型對特定回答選項影響的累積路徑與強度。實驗結果顯示,指令微調與偏好微調在影響形態與響應多樣性上展現出顯著差異,其中偏好微調的擠壓效應尤為明顯。
  • 幻覺現象定量分析:透過影響累積框架,作者不僅觀察到了幻覺產生的數據驅動證據,更能定量評估特定訓練樣本間的「錯誤傳遞」路徑,進一步確定哪些樣本間的相互影響導致回覆錯誤或重複。
  • 擠壓效應現象複現:多次重複實驗證明 DPO 訓練過程中擠壓效應的普適性與穩定性,且透過調整訓練動態可減緩此現象,提高理想答案的概率,直接影響策略優化的實務調參指導。
  • 簡單有效的對齊改進方法:基於理解微調動態,論文最後提出一種修改訓練方式的方法,能夠有效抑制幻覺現象與擠壓效應,提升微調後模型與人類意圖的對齊品質,實驗結果充分展示其實用價值。

對 AI 領域的深遠影響

本論文在大型語言模型微調研究中,開拓了全新視角——從長期動態累積的角度理解模型學習行為,填補了現有研究多集中於靜態結果分析的空缺。主要影響可歸納如下:

  • 理論統整與實踐指南:學習動態框架不僅提供了涵蓋多種微調算法的統一理論基礎,更因其透明解析微調過程的機制而成為有效診斷與改善微調策略的工具,幫助研究者與實務工程師定位問題根源,進行針對性調整。
  • 揭示與緩解幻覺問題:幻覺作為當前 LLM 面臨的最大挑戰之一,該論文首次深入揭示幻覺行為的內在成因,並提出可行抑制機制,推動了模型真實性與可靠性提升的研究節點。
  • 提升偏好微調安全性與效果:針對偏好優化中的擠壓效應的發現與理論解釋,使得設計更穩健的偏好微調算法成為可能,促進了對人類偏好調整模型的理解與工程提升。
  • 促成後續研究方向:本框架提供了豐富的分析工具與現象解釋,預期將推動包括多任務學習、跨域遷移學習、以及模型對齊技術在內的多個 AI 子領域探索,促進深層次理解和創新算法設計。

總結來說,《Learning Dynamics of LLM Finetuning》不僅在理論層面為理解大型語言模型微調提供了全新且系統的工具,同時在實驗與應用上給出了具體且有效的策略建議。這為未來大型模型安全可靠地部署與持續優化,奠定了重要基礎,是當代 AI 領域不可多得的突破性貢獻。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理領域日益成熟,這些模型在提供強大生成能力的同時,也面臨嚴峻的安全問題。近期研究發現,雖然透過對齊(alignment)技術試圖使模型生成內容更加安全且符合人類價值,但實驗顯示對齊後的LLM依然極易遭受各種攻擊手段,甚至是透過簡單的微調(fine-tuning)便可輕易繞過安全機制。ICLR 2025中獲得Outstanding Paper獎項的論文《Safety Alignment Should Be Made More Than Just a Few Tokens Deep》由Qi等人提出一個全新的洞見,指出了當前安全對齊機制存在的根本性缺陷——「淺層安全對齊」(shallow safety alignment),並提出了突破性的解決方案。

研究背景與動機

目前主流的安全對齊方法大多透過在訓練過程中對模型的生成行為施加約束,使其在輸出內容的初期階段就調整生成分布,避免產生不當或有害的語句。然而作者發現,這種對齊往往集中在生成序列的「前幾個標記(tokens)」,形成一種「淺層」的對齊策略。也就是說,安全規則被局限於模型開頭部分的輸出,而後續內容的生成則較少受到限制。這種方法導致模型在面對複雜或精心設計的攻擊時容易被「繞過」,因為攻擊者只需在開頭植入少數惡意標記或者結合後續輸入就能使得後半段生成內容偏離安全規範。

本論文的核心動機即在於:深入探討並驗證目前對齊策略的局限性,系統性地揭露和說明淺層安全對齊的危害,進而找出如何讓安全策略「深層次」植入整個生成過程,提升模型的防禦能力及整體安全性。

核心方法與創新

作者首先透過多組案例研究與理論分析,確定淺層安全對齊的存在及成因。例如,他們指出基於最大似然估計(MLE)及常用的微調策略容易讓安全機制只聚焦於生成的頭幾個標記;而對抗性攻擊手段如「對抗後綴攻擊」(adversarial suffix attacks)與「預填充攻擊」(prefilling attacks)則專門利用了這種安全策略的短視性。

基於上述洞見,作者提出了一種新的正則化微調目標,限制微調時對於初始多個標記的參數更新幅度。此舉目的在於讓模型在生成之初的安全性約束更加持久且深層次地影響後續生成,使對齊不再是僅靠前幾個標記的「表面工作」,而是貫穿整個生成過程。

具體來說,作者設計了一個「深層安全對齊」(deep safety alignment)框架,方法包括:

  • 分析並量化對齊對生成分布的影響深度,驗證傳統微調中安全約束主要集中在前幾Token。
  • 透過正則化限制微調階段對初期Token輸出分布的變動,防止安全機制被輕易覆寫或繞過。
  • 將深層次安全約束與解碼策略優化結合,提升模型對各種已知攻擊的魯棒性。

主要實驗結果

論文中作者利用多個公開基準資料集和攻擊類型,對目前主流LLM的安全對齊效果進行了全面評估,包括即興式提示攻擊(prompt injection)、微調攻擊和解碼參數攻擊等。實驗結果顯示:

  • 現有模型確實存在淺層安全對齊問題,安全約束顯著僅作用於輸出初期的少數標記。
  • 利用作者提出的深層安全對齊微調目標後,模型在保持生成品質的同時,能顯著提升對抗上述多種攻擊形式的抵禦能力。
  • 深層安全對齊策略對於微調攻擊尤其有效,使模型不易被新微調樣本覆蓋原有對齊。

此外,作者也分析了不同解碼參數(如溫度、top-k採樣)對安全性能的影響,發現整合深層安全對齊後,模型對這些解碼變化的敏感度降低,進一步強化了安全性。

對 AI 領域的深遠影響

本論文的重要貢獻在於提出「安全對齊深度」這一全新概念,明確指出目前安全對齊存在普遍的「淺層化」問題。這帶來以下幾點深刻啟示與影響:

  1. 安全對齊不應只看表面:過去對齊策略過於依賴目前輸出序列的「前端」調整,忽視了生成過程中的長距依賴與內部結構,未能真正將安全規則植入模型行為的深層。未來對齊研究必須重新設計目標,使安全規則能持續且全面地貫穿整個生成流程。
  2. 攻擊與防禦視角的統一:透過揭示多種攻擊手段的共通弱點,本論文提供了安全威脅模型的統一框架,有助於研究人員更有效地設計防禦策略,提升模型安全的整體可靠性。
  3. 微調策略需革新:現有微調流程在安全領域存在根本短板。限制微調對安全保護初期標記的影響不僅可提高安全性,也讓LLM能在不犧牲性能的前提下增強對抗微調攻擊的能力,為微調技術帶來新的設計思路。
  4. 推動生成模型安全標準化:將安全對齊深度納入模型評估指標與開發標準,有望推動語言模型從業界與學術界在安全設計與測試流程上的進步,保障AI系統在實際應用中的穩定與可靠性。

總之,本論文透過系統性檢視與創新方法,有效回應了當前大型語言模型安全對齊被輕易攻破的挑戰。其「超越淺層對齊」的理念和策略,不僅提升了模型對抗多種攻擊的魯棒性,也為後續安全研究提供了明確方向。對於工程師與研究生而言,本研究強調了安全設計必須兼顧深度與持久性,提醒我們安全對齊是整體生成過程中的長期工作,而非短暫且片段的調整。未來隨著AI技術的快速發展,實作深層安全對齊將成為保障智能系統可信且安全的關鍵技術路徑。


論文資訊
📄 Safety Alignment Should Be Made More Than Just a Few Tokens Deep
👥 Qi, Panda, Lyu, Ma, Roy, Beirami, Mittal, Henderson
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2406.05946

KAN: Kolmogorov-Arnold Networks

近年來,深度學習架構在多種任務上屢創新高,但模型對複雜函數的逼近能力與結構效率間往往存在折衷。來自劉洋等人的ICLR 2024傑出論文《KAN: Kolmogorov-Arnold Networks》提出一種結合數學理論與神經網路設計的全新架構,力圖以經典的Kolmogorov-Arnold函數分解定理為基礎,打造出具有理論保證且高效的深度學習模型,並在多項測試中展現出優異的性能與泛化能力。

研究背景與動機

Kolmogorov-Arnold定理是數學分析領域的重要理論,該定理指出任何多維連續函數都可以表示為若干一維函數的組合。這一發現為多變數函數的結構化分解提供理論基礎,也啟示人工智慧與機器學習社群,有望藉由將高維函數轉化成低維函數的"加權"與"組合"來設計高效模型。

目前的深度神經網路多集中於通用逼近定理,雖能理論上逼近任意函數,但並未充分利用函數結構特徵,且模型參數冗餘、訓練時間長、泛化效果有待提升。多維函數解構為一維函數再組合的策略,若能嵌入神經網路架構,將可能提升網路參數利用率,優化學習效率。

KAN論文的出發點即是將Kolmogorov-Arnold定理引入神經網路設計,建立一種結構化網路架構,稱為“Kolmogorov-Arnold Networks”(KAN),希望打破傳統深度網路的黑盒形式,透過數學明確函數分解理論強化模型的可解釋性與性能。

核心方法與創新

KAN架構核心創新在於直接模擬Kolmogorov-Arnold分解過程,將多維輸入函數f(x_1, ..., x_d)轉化為以下形式:

f(x_1, ..., x_d) ≈ ∑_{q=1}^m Φ_q ( ∑_{p=1}^d φ_{q,p} (x_p) )

這裡,Φ_q與φ_{q,p}皆為一維可學習函數。KAN的設計目標是讓神經網路模組學習這些一維映射函數,而非直接學習原始多維函數。此設計導向多個創新:

  • 分層結構清晰:一維函數φ_{q,p}由底層網路模塊學習,負責將單維度輸入轉化為中間表示;頂層函數Φ_q則合併這些表示,完成整體函數逼近。
  • 參數共享與節省:透過結構分解,能顯著減少高維輸入直接映射帶來的參數爆炸問題,提高模型參數效率。
  • 可解釋性提升:因為明確的假設函數分解形式,有助於分析模型在各維度輸入上的影響與貢獻,方便後續分析與優化。
  • 理論嚴謹支撐:模型設計基於經典、嚴謹的數學理論,保證函數分解的存在性,從而具備理論上的逼近性能保證。

此外,論文對KAN的學習算法也進行深度探討。針對不同層級函數,KAN採用專門的神經網路架構與正則化策略,防止過擬合且促進函數空間的平滑性與泛化性。作者亦提出有效的訓練管線,包含多階段訓練和動態調整權重機制,使得整體模型更易於收斂。

主要實驗結果

為了驗證KAN的性能與泛化能力,作者進行了多樣化的實驗:

  1. 高維函數逼近:在各類合成多維函數數據集上,KAN相較於傳統全連接網絡(MLP)、卷積神經網路(CNN)及其他先進結構,展現更低的逼近誤差與更快的收斂速度。數據顯示KAN在參數量相當或更少的條件下,有顯著提升。
  2. 物理模擬領域:利用KAN重構複雜的物理系統函數,像是多體問題與動力學系統,模型不僅成功捕捉核心量子特性,且較傳統模型更加穩定和解釋性強,表明KAN適合科學計算任務。
  3. 自然語言處理與圖像應用:在多維向量表示學習及維度約簡任務中,KAN亦有效利用函數分解策略提升表徵品質,同時實現計算效能優化,拓展了其應用範圍。

實驗中亦證明KAN具備良好的抗過擬合能力與增強的泛化性,尤其在數據稀疏與高噪音環境下仍保有較佳表現,進一步驗證了結構化分解網絡的穩健性。

對 AI 領域的深遠影響

《KAN: Kolmogorov-Arnold Networks》論文的提出,為深度學習模型設計帶來了重要啟示及新視野。傳統深度學習往往以黑盒方式設計架構,依賴大量數據與試錯優化,而KAN利用嚴格的數學函數分解理論為模型提供內在結構,達成理論與實踐的融合。

此架構不僅在純函數逼近領域取得突破,更為跨領域的科學計算、自然語言處理及圖像處理等任務提供了一種可擴展且有效率的解決方案。KAN的成功說明,深度學習模型若能更貼近本質函數結構,便能在控制模型複雜度、提升泛化能力與減少參數冗餘間取得更佳平衡。

未來,KAN的理念可能催生更多基於數學理論的結構化神經網路,推動AI模型從「泛用函數逼近器」轉向「結構感知的高效函數模塊」發展。這不僅有助於提升AI系統的解釋性與安全性,也能促進應用於更複雜領域的可行性與效率。

此外,KAN的理論架構啟示研究社群,可以進一步探索其他數學經典定理對模型結構設計的指導意義,發展出一整套基於數學原理的神經網路理論體系,符號化、結構化與強邏輯約束的AI模型設計路徑或將成為下一波研究熱點。

總結而言,《KAN: Kolmogorov-Arnold Networks》不僅在函數逼近問題上提出精湛架構,更在理論與應用層面推動AI研究向著更具數學根基和可解釋性的方向大步邁進,是2024年AI領域一篇值得深入研讀與借鑒的經典之作。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756