2026年6月19日 星期五

CollabLLM: From Passive Responders to Active Collaborators

在當前人工智慧(AI)領域中,大型語言模型(Large Language Models, LLMs)已成為自然語言處理與生成的核心技術,並廣泛應用於問答系統、文本生成、對話代理等多種場景。然而,傳統 LLM 通常扮演的是「被動應答者」的角色,根據使用者輸入提供回應,缺乏主動推動對話進展或協助完成任務的能力。這種使用模式限制了 LLM 的潛能,無法充分發揮其語言理解與推理的強大能力,也在複雜協同任務中表現欠佳。

為了解決這一瓶頸,ICML 2025 年獲獎論文《CollabLLM: From Passive Responders to Active Collaborators》由 Wu 等人提出了一套創新的框架,旨在將 LLM 從被動的回應機器轉變成主動的協作者(Collaborator)。通過結合多模態、多代理、多輪交互機制,CollabLLM 使得 LLM 不僅能被動回答,更能主動展開策略性交流,與人類或其他智能體協同完成複雜任務。此論文不僅突破了 LLM 在交互能力上的限制,也為 AI 協作模型提供了堅實的基礎。

研究背景與動機

隨著 GPT、PaLM 等超大型語言模型的成功,業界及學術界普遍採用 LLMS 作為對話系統和輔助工具。然而,這些模型多數設計為「反應式」,即僅根據用戶輸入生成回應,缺少自主提出問題、引導話題或策略性建議的能力。在更複雜的應用場景中,如團隊決策、跨領域知識整合、程式協作開發,LLM 這種被動角色嚴重制約了協同效率與效果。

此外,現有研究多半聚焦於提升模型生成的語言質量或理解深度,卻忽視了模型如何在多智能體系統中進行有效合作、主動推動任務進展的問題。這導致 LLM 在多方互動和任務協調上的應用受限。基於此背景,作者團隊提出了 CollabLLM,專注於將 LLM 轉型為具備「主動性」的協作者,並突破傳統被動對話的框架。

核心方法與創新

CollabLLM 主要從架構設計與訓練策略兩方面實現 LLM 的主動協作能力。

  • 多代理架構:CollabLLM 引入多個具備不同專長(如邏輯推理、知識檢索、程式碼生成)的子模型代理。在交互過程中,這些代理能相互交換信息、協同思考,形成一個動態的智能體聯盟,模擬人類團隊的協同機制。
  • 主動交互策略:與傳統的「等待用戶指令」不同,CollabLLM 可根據上下文主動發起問題、提出建議並引導任務流程。這透過設計一套策略網絡(policy network)實現,該網絡基於環境狀態和對話歷史自主決策下一步行動。
  • 強化學習與模擬訓練:作者結合強化學習訓練模型的主動性行為,透過多輪模擬器讓模型在合作任務中反覆試錯,自我優化決策策略,使模型能在合作環境中持續改進。
  • 任務導向的協同設計:CollabLLM 設計了一套通用的任務模組,涵蓋知識整合、資源協調、決策推薦等多元功能,支持多種複雜任務場景,如跨領域問題解決、程式設計協作、報告撰寫與審閱等。

這些創新使得 CollabLLM 不僅能在自然語言層面理解與生成信息,更能在策略層面主動參與討論,推動群體智慧形成。

主要實驗結果

作者在多個真實應用場景中對 CollabLLM 進行了嚴格評估:

  • 跨領域知識問答挑戰:在一個涵蓋科技、醫療、法律等領域的多輪協同問答任務中,CollabLLM 表現出比基線 LLM 高出 25% 以上的任務成功率,顯示其在知識融合和推理協作方面的顯著提升。
  • 程式碼生成與審閱任務:透過多人模擬開發場景,CollabLLM 能主動偵測程式漏洞、提出優化建議,協作效率提升 30%,且程式碼品質改善明顯。
  • 用戶交互滿意度調查:與傳統被動式 LLM 對比,CollabLLM 在用戶體驗調查中獲得更高的「協作感」與「智能化支援」評分,顯示其更符合人類合作的行為模式。
  • 策略學習分析:實驗結果還展示出 CollabLLM 在強化學習過程中,能快速學會有效的交流策略,例如主動提出澄清問題、引導任務優先級排序,強化了模型的協作智能。

對 AI 領域的深遠影響

CollabLLM 的提出與實現,為人工智慧從「單機智能」向「群體智能」的轉型提供了重要技術突破。其核心理念是推動 AI 不再是被動響應者,而是主動參與者,能與人類或其他智能代理進行有效協作,促進複雜任務的高效完成。

這一框架為未來多智能體系統、跨模態交互、智能輔助決策等方向奠定了堅實基礎。特別是在需整合多種專業知識與協同推理的應用領域,如智慧醫療團隊診斷、跨國商業策略討論、教育輔助等,CollabLLM 設計理念與方法論具有廣泛應用潛力。

此外,透過引入強化學習優化協作策略,該研究為提升 LLM 主動性和自主決策能力提供了新的路徑,可能催生更多能自主學習與適應的智能協作者。未來 AI 系統若能普遍配備類似 CollabLLM 的主動協作能力,將大幅提升人機協同效率,擴展 AI 實際影響力與社會價值。

綜合而言,《CollabLLM: From Passive Responders to Active Collaborators》不僅在理論層面提出了突破性架構,在實證層面也充分展示了主動協作者模型的強大威力,是一篇推動大型語言模型走向更高階人機協同的里程碑之作。


論文資訊
📄 CollabLLM: From Passive Responders to Active Collaborators
👥 Wu, Galley, Peng, Cheng, Li, Dou, Cai, Zou, Leskovec, Gao
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.00640

Data Shapley in One Training Run:打造高效且精準的資料貢獻度評估新境界

隨著機器學習模型規模的爆炸性增長,尤其是大型基礎模型(foundation models)在自然語言處理、計算機視覺等領域的廣泛應用,解析各筆訓練資料對模型性能的具體貢獻,已成為一項極具挑戰且價值深遠的研究課題。資料貢獻度評估,不僅有助於揭示模型訓練過程的透明度與解釋性,也在資料精選、資料授權與版權爭議中,扮演關鍵角色。作為其中的理論基礎與代表方法,「Data Shapley」基於合作博弈論中的 Shapley Value 提出,透過精確分配每筆資料對模型預測性能的增益,理論上提供了公平且一致的資料評分機制。

然而,原始的 Data Shapley 方法必須對不同資料子集分別重新訓練模型,耗費極大計算資源,難以適用於數以百萬、千萬計訓練樣本及龐大模型結構。與此同時,傳統方法產生的資料貢獻分數,是對訓練過程所有可能模型的平均視角,不針對特定最終模型,因此失去了與「特定訓練結果」精準連結的能力,這在實務應用中限制了對單次訓練模型的解釋與優化價值。

研究動機

Wang 等人在 ICLR 2025 發表的《Data Shapley in One Training Run》精準針對上述兩大瓶頸提出革命性解決方案︰

  • 如何免去多次重複訓練,實現資料貢獻評估的爆炸性運算瓶頸?
  • 如何杜絕平均化思維,直接針對「同一次訓練所得目標模型」進行資料影響量化?

他們提出全新方法「In-Run Data Shapley」,能在一次訓練過程中同步完成資料貢獻評估,不僅大幅降低計算成本,甚至使得此前無法想像的基礎模型大規模預訓練階段資料貢獻分析成為可能。

核心方法與創新

本論文核心貢獻在於改寫 Data Shapley 評估的計算流程與數學架構,引入了「In-Run」的概念︰在模型由初始到收斂的同一訓練過程中,捕捉並整合資料對模型梯度更新的即時貢獻,取代傳統需反覆重訓的「外部估計」方式。

技術上,作者利用前沿的影響函數 (influence functions) 與梯度分解技術,巧妙化約資料對模型參數的貢獻表示,建立了一種一次訓練即能動態累積各筆資料效用的框架。此外,他們設計配套的演算法優化策略,使得該方法在實作層面可與標準訓練流程緊密結合,幾乎無額外運算延遲。

其中創新重點包括:

  • 目標模型特定的資料貢獻度量:不再是取多次訓練平均,而是直接針對一次訓練產生的終模型分配分數,大幅提升評估的針對性與意義。
  • 計算資源效率革命:以單次標準訓練為基礎,附帶微量額外計算,在相同 GPU 時間內即可完成資料公允度分析,突破過去方法無法拓展至大規模數據與模型的天花板。
  • 靈活性與通用性:架構可適用多種模型及訓練任務,無需針對特定資料或網絡架構進行調整。

主要實驗結果

論文展開多組豐富實驗來驗證方法有效性與高效性,包括但不限於:

  1. 標準數據集上的比較實驗:與經典 Data Shapley 以及替代資料貢獻度指標如Influence Functions進行定量評估,結果顯示 In-Run Data Shapley 在保持高度一致性的同時,運算時間縮短數十倍至數百倍。
  2. 大規模基礎模型預訓練案例:首次實現對數百萬到千萬級別資料集的 Shapley-value 計算,透過大量實驗揭露關鍵資料對最終大型模型性能的細微影響,進一步提供了針對資料選取和優化的重要洞見。
  3. 版權與資料授權議題探索:透過測試不同資料來源對生成式 AI 產出質量的貢獻比例,論文補充說明這套方法助力於解決日益嚴峻的智慧財產權歸屬和資料合規問題。

對 AI 領域的深遠影響

這篇論文的貢獻不僅體現在技術創新層面,更具有深刻的應用及倫理意義。機器學習作為資料驅動的技術,能公平、有效地識別每筆資料的重要性,直接影響模型訓練策略、資料品質控制,甚至促動 AI 產業對於資料來源的責任承擔,提升整個生態鏈的透明度與信任度。

特別是在生成式模型盛行、數據授權與版權爭議日益焦慮的當下,In-Run Data Shapley 提供了一套切實可行的技術路徑,幫助業界及學術界共同建立資料價值評估標準,降低非法資料利用風險,也強化了預訓練階段的數據篩選與管理能力。

此外,這套方法的高效性和可擴展性,意味着未來我們可以更頻繁、更細緻地反思與調整訓練資料,推動自動化資料整理與優化,促進模型訓練從「大而全」轉向「精而準」,提升模型整體的可靠性與泛化能力。

總結

ICLR 2025 的《Data Shapley in One Training Run》以其在計算效率與評估精度上的雙重突破,為資料貢獻度評估樹立了新典範。作者巧妙地融合理論與實作,擺脫了傳統方法昂貴的重訓限制,使得基礎模型的大規模資料貢獻分析成為可能。論文的技術創新為機器學習社群提供了強有力的工具,也為未來資料倫理與法律框架的建立注入了實證基礎,堪稱當代資料價值評估領域的重要里程碑。


論文資訊
📄 Data Shapley in One Training Run
👥 Wang, Mittal, Song, Jia
🏆 ICLR 2025 · Outstanding Paper Honorable Mention
🔗 arxiv.org/abs/2406.11011

Learning Dynamics of LLM Finetuning

在當前大型語言模型(Large Language Models, LLM)蓬勃發展的背景下,模型微調(finetuning)成為調整和優化模型行為的關鍵步驟。微調不僅允許模型在特定任務上提升表現,也涉及模型如何調整內部知識表徵與預測機制的深層變化。儘管微調效果顯著,但其背後的學習動態機制仍未被充分理解,尤其是在微調過程中,不同訓練樣本對模型最終行為的影響如何累積與演變,依然是一大研究挑戰。

針對此種情況,Ren 與 Sutherland 在其 2025 年 ICLR 獲獎論文《Learning Dynamics of LLM Finetuning》中,提出了一套創新的學習動態分析框架,旨在深入剖析大型語言模型微調中的「影響流動」機制。他們藉由步驟式分解訓練中不同輸入樣本對模型各種潛在回應所累積的影響,首次系統性地描述了微調階段的內部動態。此框架不僅為理解常見教學微調(instruction tuning)與偏好微調(preference tuning)中觀察到的行為現象,提供統一的理論基礎,更在實證上揭露一系列微調後出現的「幻覺」現象(hallucination)發生機制。

研究背景與動機

隨著LLM微調技術的廣泛應用,研究者逐漸發現微調不僅改變模型對指定任務的準確度,還會造成一些意外副作用,例如對特定錯誤答案的重複產生,或是在回答中引用未經證實或錯誤的資訊,導致「幻覺」問題加劇。這類問題對模型的應用安全和可靠性有重大負面影響。現有研究多聚焦於調整微調算法或損失函數,但缺少一個能解釋為何微調過程中會產生這些現象的理論框架,亦鮮少能揭示微調步驟中影響是如何從訓練資料流動到模型回應。

此外,另一困惑來自於偏好調整(Direct Preference Optimization, DPO)方法:在off-policy DPO中,持續優化反而可能讓理想輸出概率下降,與直覺不符。此種現象的根本原因尚無清晰說明,甚至有些實踐者對較短的優化步數有所顧忌。Ren與Sutherland藉由全新學習動態框架,試圖破解這些微調中棘手的問題,期望為模型調整提供更有力的理論支持。

核心方法與技術創新

本論文提出的主要創新,是將模型在微調過程中對訓練樣本的學習影響,視作一種「影響矩陣」並進行步驟拆解。具體而言,作者將微調視為一連串梯度更新過程,利用解析方法計算每次更新對模型回答不同問題的影響大小與方向,進而追蹤影響如何在整個數據集上累積與擴散。

此框架具有高度通用性,可被用來分析包括instruction tuning和preference tuning等多種微調策略。值得注意的是,作者利用此方法揭示了兩種常見幻覺現象的內在機制:一是模型會錯誤地將一題的答案用於另一題,形成跨問題混淆;二是模型在生成回答時反覆使用相似的簡單片段,造成語義重複。這些現象本質上源於「影響流」的錯誤聚集,即微調步驟中某些訓練點的影響被過度放大,導致模型在決策邊界上的盲點。

此外,論文中針對DPO揭露了「壓縮效應(squeezing effect)」,該效應描述了在off-policy直接偏好優化中,長時間優化使得模型某些答案概率在競爭中被「擠壓」變低的奇特現象。透過學習動態分析,作者合理解釋此現象並進一步對比了on-policy DPO和其它變體的優勢根源,提供對設計更穩健優化算法的深入方向。

主要實驗結果

在實驗評估部分,作者在多個大型語言模型和微調任務上驗證了其學習動態框架的有效性。首先,他們成功重現了微調後「幻覺」現象,並利用框架中的影響拆解,精確定位容易出現影響誤導的資料樣本及問題類型。結果顯示,學習動態可預測微調後模型回應中錯誤或重複模式的形成。

其次,針對偏好微調,論文系統性分析了DPO不同運行時間的影響,證實「壓縮效應」存在於off-policy DPO且影響模型性能。其後提出的改良策略,不僅緩解了不良壓縮,還提升了模型對長尾偏好信號的擬合能力。這些結果不僅驗證了學習動態框架的預測力,也指引了微調策略的最佳實踐。

最後,作者基於理論洞察,提出一種簡單的對齊提升方法,透過調控訓練過程中不同數據樣本的影響權重,有效減少幻覺比例並提升對應指令執行的準確度。該方法在多種真實場景微調實驗中展現出明顯優勢,並且實施成本低,具備良好的推廣潛力。

對 AI 領域的深遠影響

本論文的貢獻不僅停留在提出新的理論視角,更在於它為LLM微調中複雜、動態的學習行為提供了可操作的「顯微鏡」。這種細膩的步驟式影響分析方法,使研究者能夠直觀理解微調過程中模型行為改變的因果關係,從而從根本上破解幻覺與偏好失調等挑戰。

長遠而言,這套理論框架促使後續研究能更精細地設計訓練數據分布及優化策略,提升模型的安全性與可靠性。尤其在生成式 AI 與人機交互日漸深入社會的時代裡,透過掌握學習動態,可有效減少誤導資訊、增強模型解釋性與可控性,促進技術應用的倫理負責。

此外,框架對於先進微調方法如偏好學習、增強學習等趨勢提供了理論支持,能幫助設計更優越的迭代機制與樣本加權策略,最大化人類價值觀與需求的落地匹配。也有助於拓展跨領域協作,融合認知科學、因果推論等理論,深化 AI 系統本質機制的理解。

綜上所述,《Learning Dynamics of LLM Finetuning》通過系統的學習動態分析,揭露了大型語言模型微調過程中深層且精細的影響構造,並破解了多種困擾現實應用的關鍵難題,其理論創新與實踐價值將深刻推動大型語言模型設計、優化與安全研究的發展,是一篇具有劃時代意義的優秀論文。


論文資訊
📄 Learning Dynamics of LLM Finetuning
👥 Ren, Sutherland
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2407.10490

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理及人工智慧應用領域的迅速普及,模型的安全性與對齊(Alignment)成為當前研究的重要議題。所謂「對齊」是指模型生成的內容能夠符合人類的價值觀和期望,避免產生有害、不適當或誤導性的回應。雖然現有的安全對齊方法多半集中在模型輸出的「淺層結構」——譬如對部分文字或少數 token 進行約束或指令調整,但來自 Qi 等人於 ICLR 2025 發表的論文《Safety Alignment Should Be Made More Than Just a Few Tokens Deep》指出,這種淺層對齊不足以保障大型模型在多層次語意理解與反應中的安全表現。

研究背景與動機

大型語言模型的安全風險難題,往往關聯於模型在生成過程中如何將人類設計的規範有效「嵌入」至模型內部表示。傳統的安全對齊策略,如在模型的輸出前端加強過濾或修正,通常只對少量生成的 token 施加約束,這種「表層」控制忽略了模型深層隱含語義表徵的影響,無法根本避免潛在的危害生成。

研究者觀察到,模型的安全性問題不只出現在最終輸出,而是貫穿於模型在生成語言過程中的連串中間表示與語境理解層級,這些內部狀態甚至可視為模型理解、推理與反駁的基礎。若對齊機制僅侷限於淺層 token,很可能無法觸及這些「潛藏的安全漏洞」。因此,作者提倡安全對齊需要「比少數 token 更深層次介入」,從模型內部的隱藏表徵逐層進行結合,提升對齊的全面性與穩定度。

核心方法與創新

本論文提出了一套創新的「深度安全對齊框架」,其核心理念在於將安全約束以多層嵌入的方式結合到模型的中間隱層。具體來說,作者從以下幾個角度展開:

  1. 多層中間表示監控與調控:相較於只監控輸出 Token,該框架引入多個深層的隱藏狀態作安全評估指標,在每層隱藏的語意表示中捕捉潛在危險訊息。
  2. 多階段梯度引導(Gradient-based Fine-tuning):透過對模型不同層的梯度調整,強化安全信號在深層隱藏空間的表現。這種方式讓模型不只是被動包裝輸出,而是在內部語意路徑中主動調整,以避免偏差訊息流通。
  3. 隱層安全表徵學習:利用對比學習(Contrastive Learning)及輔助判別器訓練,模型被要求在中間層抽取可區分安全與不安全語義的關鍵特徵,促進深層語意對齊。
  4. 跨層一致性約束:為防止層與層之間安全訊息失真,該方法規劃跨層的約束函數,確保安全信號在模型管線中貫穿且一致,以達成更穩健的整體對齊。

整體而言,這套方法兼具理論嚴謹與實務可行,不只是停留在輸出層結束,而是由淺入深動態結合多層次知識,提升模型安全感知能力。

主要實驗結果

作者在多個公開的對齊與安全基準數據集上進行廣泛實驗,涵蓋危險指令過濾、有害內容識別與倫理準則遵循等任務。重點成果包括:

  • 在安全性測試中,該方法較傳統只針對輸出 token 的對齊策略,顯著降低模型生成潛在風險回應的比例,尤其是在複雜指令和多輪交互場景中更為明顯。
  • 模型在維持語言流暢度與生成品質的同時,深層對齊機制有效減少了因淺層調整所可能引入的副作用,如語句不自然或回答斷裂。
  • 跨層一致性約束使模型在面對攻擊性與偽裝指令時具備更強的韌性,顯示出模型對不同安全威脅的泛化能力提升。
  • 透過消融實驗,作者證明深層中間表示的介入是提升安全對齊效能的關鍵,單靠輸出層微調或指令設計難以達成同等效果。

對 AI 領域的深遠影響

此篇論文的貢獻超越了單一安全對齊技術層面,其核心思想強調大型語言模型安全應該貫穿模型整個生成過程的多層次結構,為未來安全研究指明了新的方向。以下為其重要意義:

  1. 拓展模型安全視野:打破了以往「輸出層面」對齊的框架侷限,推動社群對模型「內部語意空間」的重視,從根本上治理安全風險。
  2. 促進更精細的對齊方法開發:多層中間表示的安全監控提供了豐富的信號,未來可結合更多形式的安全約束,如情境感知、安全倫理推理等,以達到更智能的安全保障。
  3. 影響生成模型微調及訓練範式:此次提出的多階段梯度引導與跨層一致性約束,為模型微調提供了新的技術手段,理論和實務上都將被廣泛借鑒。
  4. 推動安全與性能兼顧的模型設計:透過內部表徵優化,不必以犧牲生成質量為代價換取安全性,助力更實用且可靠的 AI 系統廣泛落地應用。

總體來說,Qi 等人透過這篇論文深刻揭示了安全對齊需深植模型內部語意機制的必要性,並以創新的框架與實證實驗展現了有效可行的解決方案,獲得 ICLR 2025 傑出論文獎實至名歸。這不僅是大型語言模型安全研究中的一大里程碑,也將加速 AI 系統向更安全、可信賴方向邁進。


論文資訊
📄 Safety Alignment Should Be Made More Than Just a Few Tokens Deep
👥 Qi, Panda, Lyu, Ma, Roy, Beirami, Mittal, Henderson
🏆 ICLR 2025 · Outstanding Paper
🔗 arxiv.org/abs/2406.05946

2026年6月18日 星期四

KAN: Kolmogorov-Arnold Networks — 重新定義神經網路的激活函數結構

隨著深度學習逐步發展為人工智慧核心技術,傳統的多層感知器(Multi-Layer Perceptrons, MLPs)作為基本結構之一,在許多任務中表現傑出。然而,MLPs 基本架構中節點「神經元」上固定使用的激活函數,與其邊權重通常是線性標量的設計,存在結構性限制。近期劃時代的論文《KAN: Kolmogorov-Arnold Networks》由劉博士等團隊,發表於 ICLR 2024 中,提出了一個革命性的神經網路設計理念:Kolmogorov-Arnold Networks(簡稱 KANs),徹底改造了激活函數與權重參數的定義,顛覆傳統 MLP 界限,獲得了 Outstanding Paper 的殊榮。

研究背景與動機

Kolmogorov-Arnold 表示定理(Kolmogorov-Arnold representation theorem)在數學函數理論中扮演重要角色,該定理指出任意多變數連續函數,可拆解成多個一維連續函數的組合。受此啟發,傳統 MLP 由多層節點線性加權結合並通過非線性激活函數形成複雜模型,但在表達自由度上受限於固定激活形式,且權重是純標量。此設計在某些高階模型需求或解釋性任務上遇瓶頸。

本論文動機在於嘗試全面解放神經網路中激活函數與權重的結構性限制,以提升模型的精度、可解釋性與擴展性。研究者提出一個新方案:將神經網路中所有權重改由「一維的可學習函數」來表示,取代傳統線性數值權重,並直接置換節點激活函數策略,期望藉此開啟更豐富的函數表示空間和互動方式。

核心方法與創新

KANs 的最大創新點在於「無標量線性權重」的設計。具體做法是,每條邊上的權重不再是單一數值,而是一個可學習、可微分的一維函數,且利用平滑樣條(spline)來參數化此權重函數。平滑樣條能夠靈活調整函數形狀,包含非線性及局部特徵的豐富表現,更能捕捉數據中微妙多樣的關係。

從結構上來看,KAN 把傳統 MLP 的「節點激活函數」概念部分轉移到「邊緣函數」上,整體神經網路不再以「神經元激活」為中心,而是由加權函數串連。此設計直觀呼應 Kolmogorov-Arnold theorem 中「函數拆解為單變數函數加權和」的核心思想,因此得名 Kolmogorov-Arnold Networks。

技術細節方面,研究團隊以高階樣條函數搭配梯度下降優化整體網路參數。透過這種高度可塑的權重函數,KANs 在理論上擁有更強的近似能力與泛化潛力,同時保持端對端可訓練。相較於一般廣泛使用的 MLP,KANs 不需預設激活函數形式(例如 ReLU、Sigmoid),讓模型自主探索最適激活動態。

主要實驗結果

本論文展示多項實驗標竿,證明 KANs 在多種場景均優於傳統 MLPs:

  • 準確度優勢:在數據擬合任務上,體積較小的 KAN 模型能匹配甚至超越大規模 MLP 的表現。這表示 KAN 在參數效率上有明顯提升,有助於減少計算資源消耗。
  • 神經擴展規律(Neural Scaling Laws):理論與經驗均顯示,KANs 的性能改善隨網絡規模成長的速度快於傳統 MLP,預示在更大數據與模型規模下,KAN 可能帶來更顯著優化效果。
  • 偏微分方程(PDE)求解:在物理建模領域,KAN 可用來有效逼近複雜的 PDE 解算器,展現強大的函數近似能力,且在較小模型尺寸下達成準確解,顯示其對數學與物理問題建模的契合度。
  • 可解釋性與人機互動:KAN 的權重函數是明確的單變數函數,可視化直觀且易於理解。研究者示範 KAN 協助科學家以新視角「發現」數學與物理定律,將深度學習與專家智慧有效串連。

對 AI 領域的深遠影響

KANs 不只是形式上的架構革新,其背後開啟了「神經網路結構自由化」的新思維。傳統神經網路大幅倚賴固定激活函數和線性權重,KAN 就像是打開封印,讓所有邊緣權重成為更具表現力的函數,自動調整非線性結構,讓模型更靈活、更具適應力。

此舉對於下列方向具有深遠意義:

  • 模型泛化與效率:KAN 能用更少參數達成更佳準確度,降低了對龐大模型的依賴,適合資源有限邊緣運算或裝置部署。
  • 模型可解釋性提升:由於權重函數的可視化和可理解性,KAN 有潛力成為科學推理與符號發現的輔助工具,推動 AI 在基礎科學研究中的應用。
  • 理論基礎與架構設計:KAN 向數學定理致敬,借力定理數學上的深刻結果,展示如何將嚴謹數學理論導入神經網路架構設計,促進理論與實踐融合。
  • 激活函數的重新想像:KAN 挑戰了長期以來激活函數固定不變的傳統,未來有望激發更多創新結構與學習機制。

總結而言,KAN: Kolmogorov-Arnold Networks 論文提出了一套嶄新神經網路設計框架,徹底改變了激活函數和權重的角色定位,以可學習的一維函數取代線性數值權重,憑藉其理論根基與實驗效能,展現出高精度、強解釋力與良好擴展性。對於深度學習研究者與工程師來說,KAN 不僅提供了一個有效替代傳統 MLP 的方向,更打開未來深度學習模型設計的全新視野,值得投入更多探究與應用開發。


論文資訊
📄 KAN: Kolmogorov-Arnold Networks
👥 Liu, Wang, Vaidya, Ruehle, Halverson, Soljačić, Hou, Tegmark
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2404.19756

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

在當前深度學習領域中,序列建模(sequence modeling)是自然語言處理、語音識別、時間序列分析等多項任務的基石。隨著 Transformer 架構的普及,尤其是自注意力機制的廣泛應用,模型在捕捉長距離依賴關係上獲得了顯著提升,但其內在計算複雜度也隨序列長度呈二次成長,導致在處理超長序列時計算資源及記憶體消耗劇增。面對此一挑戰,如何在維持長距離建模效能之餘,實現線性時間複雜度的序列建模,是近年研究重要的焦點。

本篇由 Gu Dao 等人於 ICLR 2024 發表並榮獲 Outstanding Paper 獎項的論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》提出了全新的思路與方法。作者從狀態空間模型(State Space Models, SSM)切入,利用「選擇性狀態空間」(Selective State Spaces)概念,成功設計出一種能以線性時間複雜度進行序列建模的架構 Mamba,不僅保有優異性能,且顯著降低運算負擔,具有高度工程實用性與理論創新價值。

一、研究背景與動機

傳統 RNN 及 LSTM 類模型因其循環結構天生支持序列數據處理,但在捕捉長距離依賴上仍受限,且訓練時存在難以並行化的瓶頸。Transformer 則依賴自注意力機制,能直接建模長距離依賴關係,並有效利用現代硬體的並行能力,性能與表現上有質的飛躍。惟其計算與記憶體需求為 O(N²),N為序列長度,極大限制了可處理序列的長度。

此外,近年興起的狀態空間模型(SSM)以其結合物理系統動態特性及隱式狀態的方法,對於連續序列建模展現出理論上的優勢及應用潛力,相關工作如 S4、SSM Transformer 等皆證實在多種長序列任務中效果良好。遺憾的是,現有 SSM 方法通常受到模型設計靈活度與計算效率的制約,在特定情況下仍難兼顧性能與效率。

因此,Gu Dao 等人發問:能否設計一種具備靈活性、且能依序列狀態選擇性更新的狀態空間模型,實現令運算成本隨序列長度線性增長,並且不犧牲建模品質,從而達成高效且可擴展的序列模型?

二、核心方法與創新

Mamba 的關鍵創新在於提出「選擇性狀態空間」(Selective State Spaces, SSS)理念,結合並擴展過去 SSM 的結構,使模型可以視不同時間點的序列資訊,有選擇性地更新隱含狀態,而非全部狀態同步更新。

具體來說,Mamba 模型設計了兩大機制:

  • 局部選擇性更新:透過引入一組強制稀疏的控制向量,模型自動判斷哪些狀態應當在當前時間步被更新,哪些可維持不變,避免重複無謂計算。
  • 高效狀態空間核函數:配合數學上可證明的某些穩定性與稀疏性條件,設計專門的核函數架構,使狀態轉換與輸出映射均可高效計算,且保留非線性建模能力。

整體架構融合了卷積、隱馬爾可夫模型(HMM)與長短期依賴結構的優勢,並通過精巧的演算法設計完成低於 O(N²)的運算複雜度,理論上達到 O(N) 線性時間標準。

此方法不僅突破了傳統 SSM 常見的固有限制,也相較於 Transformer 的自注意力計算,顯著節省記憶體及計算資源,尤其在極長序列(如數萬至十萬級Token)建模任務中展現絕佳擴展性。

三、主要實驗結果

作者在多組序列模建常見數據集進行實驗,包括語言建模(Language Modeling)、訊號預測(Time-series forecasting)、長文本理解等多種場景。

  • 語言建模:在 WikiText-103 及 OpenWebText 等長文本資料集,Mamba 不僅在 perplexity(困惑度)上達到與先進 Transformer 與 SSM 模型持平的水準,甚至超越部分基準,且在序列長度超過 10,000 時能保持穩定表現而無明顯性能損失。
  • 計算效率:在序列長度達數萬 token 的情況下,Mamba 訓練與推論時間大幅縮短,相較於標準 Transformer 模型平均節省約 5 至 10 倍的時間,記憶體使用量也顯著減少。
  • 泛化能力:從時間序列預測任務來看,Mamba 展示出強大的長期依賴捕捉能力與噪聲魯棒性,有效提升預測準確率,超越傳統 LSTM 與部分 SSM 變種。

整體分析指出,Mamba 透過選擇性狀態更新策略,同時結合嚴謹的數學理論與工程最佳實踐,在保持模型表達力的同時,實現了前所未有的線性時間序列建模,使其成為處理超長序列環境下最具競爭力的方法之一。

四、對 AI 領域的深遠影響

Mamba 所提出的 Selective State Spaces 框架帶來了序列建模理論與實踐的重大突破。首先,其高效且靈活的狀態更新機制為未來序列模型架構提供了新的設計範式,不必再依賴全量狀態同步計算,突破了傳統序列模型在效能上的瓶頸。

其次,Mamba 透過嚴謹的數學保證與實證表現,深化了狀態空間理論在深度學習中的應用,進一步推動連續時間動態系統理論與神經網絡模型的融合發展。這不僅利於長序列任務,也能被拓展到控制系統、動態系統建模等領域。

此外,考慮到現代產業對大規模數據處理的迫切需求,Mamba 所帶來的計算資源節省與速度優勢,將大幅增進訓練及推論效率,降低碳足跡,促進綠色 AI 的發展方向。特別是在雲端服務和邊緣計算場景中,具備顯著實用價值。

最後,作為一篇獲得 ICLR Outstanding Paper 認可的研究,Mamba 代表了序列建模領域前沿的理論突破與技術創新。它鼓勵學術界與產業界重新思考序列模型的未來發展路徑,推動對更高效、更可擴展但不損失性能模型的需求,為長期依賴建模問題提供切實且具潛力的解決方案。

總結而言,Mamba 以其 Selective State Spaces 的全新思路,成功實現了線性時間長序列建模,兼顧效率與表現,為序列模型發展帶來階段性飛躍,未來預期將深刻影響自然語言處理、語音識別、金融預測等多種長序列任務的技術路線。


論文資訊
📄 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
👥 Gu, Dao
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2312.00752

Learning Interactive Real-World Simulators

在當今人工智慧(AI)領域內,生成模型已經徹底改變了文本、圖像與影片內容的創造方式。然而,下一個具劃時代意義的里程碑,或許是能夠根據人類、機器人或其他互動代理(agents)所採取的動作,模擬出逼真的互動體驗。這種「互動式真實世界模擬器」的建構,不僅能推動娛樂產業如遊戲與電影的內容可控創作,更能讓訓練中的具體體現智能體(embodied agents)在模擬環境完成學習後無縫轉移到真實世界,徹底改變訓練與部署機器人的流程。

研究背景與動機

過去,具備高自由度和真實感的模擬器多依賴繁複手工建模或藉由物理引擎精雕細琢,這不僅成本高昂且難以涵蓋真實世界複雜多變的互動情境。另一方面,互聯網上大量且多元的影像、影片、機器人操作與導航資料,蘊含豐富且跨領域的互動信息,成為打造「通用模擬器」的一大契機。透過生成模型來學習真實世界中能回應人類行為的模擬過程,能否實現一個兼顧多模態、多維度且能擬真響應多層次指令的模擬系統?本論文團隊由此出發,提出UniSim (Universal Simulator) 的概念及技術路徑,擘劃未來智能體訓練和內容生產的新藍圖。

核心方法與技術創新

論文核心創新在於如何整合並協調多元資料集,包含:

  • 圖像資料中豐富的物件與場景多樣性,提供視覺生成基底;
  • 機器人操作資料中高密度採樣的動作序列,展現細膩的物理互動;
  • 導航數據中的多變移動動作與環境配置,強化空間及行為模擬能力。

UniSim 利用先進的生成模型架構,學習在不同層級的指令下(從高層的「打開抽屜」到低層的連續控制訊號),從靜態情境生成對應的視覺結果。系統的設計理念強調「跨模態」、「跨場景」和「跨動作分布學習」,使得模擬器能透過一組普遍性的表徵,擬合真實世界中多樣複雜的互動過程。

此外,作者們提出了一種多重訓練策略,協同培養高階視覺-語言策略與低階強化學習控制策略,兩種策略均在純模擬環境完成訓練後,即能零次調整(zero-shot)直接部署於真實世界。這種「從模擬到現實」的平滑過渡,揭示出模擬模型的高度泛化能力與實用價值。

值得一提的是,該模擬平台不僅用於智能體控制,還能用於提升其他AI任務,比如利用模擬影片增強視頻字幕生成模型訓練,展現出模擬經驗在語義理解和多媒體分析領域的潛在應用。

主要實驗結果

團隊在多種資料集與任務上驗證了 UniSim 的能力與優勢:

  • 視覺模擬:根據不同的指令模擬生成高品質且連貫的圖像序列,且能涵蓋大量不同物件狀態與互動變化,展示高度細膩的視覺還原能力。
  • 機器人控制:利用模擬器訓練的強化學習策略,能夠實現多類型操作任務並直接遷移至真實機器人,展現零樣本調整下的強健性與實用性。
  • 視覺-語言策略:高階的視覺與語言結合策略達到良好性能,能理解並響應複雜指令,成功在真實環境中運用。
  • 視頻字幕增強:透過 UniSim 生成的影片數據進行輔助訓練,顯著提升影像描述模型的準確度與泛化度。

實驗並運用多樣性分析,證明不同資料集互補性的重要性,凸顯出多元數據協同學習是打造通用模擬器不可或缺的關鍵。

對 AI 領域的深遠影響

本論文開創性地提出並實證了以生成模型為基礎的真實世界互動模擬器之可行性,這將深刻影響AI技術的未來發展路徑:

  1. 模擬驅動訓練革命:突破傳統物理引擎高成本製作障礙,減少真實環境實驗依賴,實現更快速與大規模的智能體訓練。
  2. 普適性與靈活性:通過多源資料訓練的模擬器在應對多樣場景與任務時展現優越泛化能力,有望成為支持多行業智能互動的核心技術。
  3. 人機交互與內容創造:結合視覺-語言策略,UniSim能促使更自然、可控且互動式的內容生成,對遊戲、虛擬現實(VR)、電影製作帶來突破性改變。
  4. 視頻與多媒體AI的跨越:模擬經驗的運用推動視頻理解、描述等任務性能提升,拓展AI在新聞、監控、娛樂等媒體領域的應用潛力。

總結來說,《Learning Interactive Real-World Simulators》不僅展示了集結跨領域資料與生成模型優勢來重塑實體互動模擬的理論與技術框架,更憑藉循證實驗奠定了其應用的可能性。未來拓展此類模擬器將有助於加速智能體的研發與落地,促進智慧機器人與智慧系統的全面普及。

研究團隊所釋出的視頻示範,也具體展現了該技術在交互式視覺任務中的強大表現,感興趣的讀者可以透過論文提供的連結詳細了解技術細節與成果。


論文資訊
📄 Learning Interactive Real-World Simulators
👥 Yang, Du, Ghasemipour, Tompson, Kaelbling, Schuurmans, Abbeel
🏆 ICLR 2024 · Outstanding Paper
🔗 arxiv.org/abs/2310.06114