2026年5月20日 星期三

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

在強化學習 (Reinforcement Learning, RL) 的發展過程中,網路結構的深度一直是影響表現與能力的重要因素之一。2025 年 NeurIPS 的最佳論文《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》由 Wang 等人提出,突破性地展示了將網絡深度擴展至千層規模,並結合自我監督學習 (Self-Supervised Learning, SSL) 技術,能顯著提升 RL 代理在多目標環境下的目標達成能力。此論文不僅在架構設計與訓練策略上帶來創新,也對未來深度強化學習與自主智能系統的研究方向產生深遠影響。

研究背景與動機

近年來深度強化學習在遊戲、機器人控制與自動駕駛等領域取得顯著成果,但其設計多依賴數層至數十層的神經網絡。現有研究多聚焦於網絡寬度或結構的多樣性,卻較少深入探討極端加深網絡層數的可行性與潛力。由於梯度消失、訓練不穩定性等技術挑戰,千層以上的網路在強化學習領域一直難以實現。

此外,目標導向的強化學習(goal-conditioned RL)強調代理能根據不同目標達成相應策略,這要求模型具備高度的泛化能力與長期規劃能力。自我監督學習提供了豐富的預訓練機制,能在無需大量標記的情況下獲取有效表徵,但如何將其與超深網絡結合,進而強化 RL 模型的目標達成能力,仍缺乏系統性研究。

本論文立足於此,提出一套創新的訓練框架與超深網絡架構設計,藉由千層網絡結合自我監督策略,突破深度限制,擴展智能體達成複雜目標的能力。

核心方法與創新

本論文的主要貢獻在於設計並成功訓練了一個層數超過1000層的神經網絡,用於自我監督強化學習場景,具體創新點包括:

  1. 梯度流優化的超深網絡架構:作者提出一種改良的殘差網絡架構(Residual Network),結合跳接(skip connections)與層正規化技巧,有效緩解梯度消失與梯度爆炸問題。更重要的是,設計了動態層激活機制(Dynamic Layer Activation),允許模型在不同階段自適應選擇激活層數,使訓練過程更加穩定且計算效率更高。
  2. 自我監督目標嵌入學習(Self-Supervised Goal Embedding):為提高目標多樣性和表示豐富度,論文提出一種基於對比學習的自我監督目標嵌入方法。該方法能讓代理在無需人工標記的情況下,學習從環境狀態到目標空間的有效映射,提升目標條件下策略的泛化能力。
  3. 多目標探索策略融合:作者將自我監督嵌入與強化學習的探索策略緊密結合,通過增強的目標多樣性和深度網絡的強表徵能力,使智能體能在複雜、多變的環境中發現更豐富且精細的路徑策略。
  4. 大規模分布式訓練系統:千層網絡的訓練對計算資源和算法穩定性要求極高,團隊搭建了多節點分布式訓練架構,結合漸進式層數增長策略,成功完成訓練過程,進一步証實所提方法的可行性。

主要實驗結果

作者在多個標準強化學習基準環境中進行測試,包括定制化的多目標迷宮探索 (Multi-Goal Maze Navigation)、連續控制任務 (Continuous Control) 與機器人操作任務。實驗結果顯示:

  • 在多目標達成任務中,1000層深網絡相比傳統深度模型(如10至50層)在成功率上提升超過 30% 至 50%,且在長距離目標達成上表現尤為突出,顯示深層結構有效增強了模型的長期規劃能力。
  • 自我監督嵌入學習明顯提升了目標多樣化指標,使智能體在未知或少見目標下表現更加穩健,並具備優秀的泛化能力。
  • 動態層激活結合漸進式訓練,使得超深層網絡不僅可訓練且訓練時間相比直訓千層大幅縮短,實現了效率與效果的平衡。
  • 分布式訓練系統實現了千層網絡的可伸縮擴展,且在多機多卡環境下的訓練穩定性較高,為未來大規模深層強化學習模型奠定技術基礎。

對 AI 領域的深遠影響

此篇論文的成功訓練千層神經網絡並應用於自我監督強化學習,不僅挑戰了現有深度學習對網絡深度的技術限制,也開創了強化學習架構演進的新方向。具體影響可概述如下:

  1. 重新定義強化學習模型設計:過去多層次強化學習模型多以「寬度」創新為主,本文展示深度的極限延伸能帶來全新能力,尤其在複雜目標達成與長期探索任務中,深度網絡可更好地捕捉環境狀態的層層細節與時間依賴關係。
  2. 推動自我監督學習與強化學習的深度融合:自我監督目標嵌入技術顯著提升了目標空間的表徵能力與多樣性,此方法將激勵未來在多目標設定與自主學習領域進行更多創新。
  3. 促進超大規模模型與系統基礎設施發展:透過分布式動態訓練框架的建立,為訓練超深強化學習模型提供了可行方案,有望在機器人、智能代理等許多實務領域推廣應用。
  4. 對於泛化與可擴展性的啟示:本研究證明適當結構與訓練方法下,極深層模型能在數據相對匱乏且環境複雜的設定中依然展現優異泛化能力,這對於開發自主學習系統意義重大。

總結而言,Wang 等人的這篇「1000 Layer Networks for Self-Supervised RL」論文是強化學習和深度學習領域的一大突破。它不僅解決了超深網絡訓練的技術難題,更憑藉自我監督策略,讓智能體具備前所未有的學習深度與靈活度,為自適應、多目標環境下的智能代理研究樹立了新範式。未來,透過這種架構與訓練策略的進一步優化,強化學習在自主導航、機器人操控及複雜決策制定領域將迎來新的飛躍。


論文資訊
📄 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
👥 Wang, Javali, Bortkiewicz, Trzcinski, Eysenbach
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2503.14858

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free 深度解析

在當前自然語言處理(NLP)領域,大型語言模型(Large Language Models, LLMs)已成為驅動生成與理解任務性能突破的核心力量。其中,基於Transformer架構的自注意力機制(Self-Attention)更是關鍵。然而,隨著模型規模與訓練數據的擴大,如何在保持計算效率與穩定性的同時,進一步提升模型性能成為研究熱點。Qiu 等人於 NeurIPS 2025 榮獲最佳論文的《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》即針對該領域,提出一種簡潔且高效的「門控注意力機制(Gated Attention)」,其對大型語言模型的訓練穩定性、性能提升以及長序列上下文的理解帶來革命性影響。

研究背景與動機

傳統自注意力模型如 Transformer 使用的 Scaled Dot-Product Attention(SDPA)計算方式,當中透過對查詢(Query)與鍵(Key)向量的點積,再經 Softmax 正規化後,作用於值(Value)向量以獲得注意力輸出。此機制雖強大,但其本質仍是線性映射,可能限制了非線性特徵的捕捉能力。此外,模型訓練過程中學習率受限,容易出現梯度不穩定、收斂困難等現象,且長序列情況下還可能出現「attention sink」(注意力匯聚效應),使部分注意力頭僅專注於少數位置,導致上下文信息利用率下降。

過去門控結構(Gating Mechanisms)在深度學習中已有廣泛應用,例如 LSTM 的輸入門、遺忘門以及 Highway Networks 的門控連接,這些設計可引入非線性及稀疏激活,提高模型表現與穩定性。然而,關於門控方案在「軟注意力」特別是大型語言模型內部「注意力頭」層面如何發揮作用,文獻中探討甚少且不夠系統化。

核心方法與創新

本論文透過大規模的實驗對比,聚焦於在 SDPA 後引入「頭專屬(sigmoid)門控」的簡單修改。具體而言,作者在每個注意力頭輸出上施加一組可學習的 sigmoid 函數門控權重,使得該頭的注意力輸出動態受查詢向量調控情況而改變,進而形成「query-dependent sparse gating scores」。數據表明,這種設計同時具備兩大關鍵特性:

  • 非線性增強:由於傳統attention計算基本上是線性的權重映射,門控層加入後,額外引入非線性映射,提供模型表達更多複雜的變換能力。
  • 稀疏選擇性調制:門控分數因 query 而異,具備稀疏特性,能有效過濾不必要或重複的注意力頭輸出,減少「注意力沉溺(attention sink)」問題。

此外,作者比較門控放置的不同位置(如注意力矩陣前後),檢驗不同設計變體的效能,發現 SDPA 後添加門控為最優方案。在技術上,該方法能兼容超大型混合專家模型(Mixture-of-Experts, MoE)及稠密模型,並支持更高的學習率,使訓練更穩健、收斂更快。

主要實驗結果

實驗部分,作者訓練了規模達 15 億參數的 MoE 模型以及 1.7 億參數的稠密模型,均在龐大約 3.5 兆字元的文本資料集上進行訓練。透過超過 30 種變體實驗,結果顯著顯示:

  • 引入頭專屬 sigmoid 門控後,模型在多種下游任務的表現均有一致性提升,包含語言理解和生成任務。
  • 在長文本上下文的推理與延展能力上,門控機制減緩了「attention sink」現象,使注意力頭分布更均勻,提升模型對長序列的捕捉與推理能力。
  • 門控設計允許模型容忍更大的學習率,帶來更快和更穩定的訓練過程。
  • 門控後的模型展現更好的擴展性,隨著模型參數增大,性能提升更加顯著。

值得一提的是,作者也公開了源碼與模型權重,促進後續社群進行驗證拓展與實際應用。

對 AI 領域的深遠影響

本論文的貢獻不僅在於提出一個具體且高效的改進方案,更重要是它系統性揭示了門控機制在大型語言模型自注意力中的核心價值:

  1. 融合非線性與稀疏性的設計新典範:過去自注意力大多視為線性加權機制,本文突破此藩籬,將非線性門控與有效的稀疏調控引入,為未來注意力架構創新開闢新方向。
  2. 實踐層面提升大型模型訓練穩定性:門控機制令模型能在更大學習率下穩定訓練,降低調參成本,加速LLMs向更大規模發展的步伐。
  3. 解決長序列表示瓶頸問題:Attention Sink 現象長久以來困擾著長文本建模,此研究透過稀疏門控緩解該問題,大幅增強長文本推理與生成能力,極具實用價值。
  4. 促進門控機制與注意力模型的結合研究:本文系統比較多種門控位置與計算變體,為後續在不同模型與任務中應用及擴展提供寶貴實證依據和設計指引。

綜上,Qiu 等人提出的 Gate Attention 機制不僅是對 Transformer 自注意力架構的深化升級,更象徵了AI模型設計由經典線性權重向動態非線性稀疏激活邁進的重要里程碑。這為大型語言模型在性能、訓練效率及長文本理解方面帶來全新突破,也將推動各類深度學習應用從語言擴展至視覺、跨模態等多元場景。

對具備基礎AI知識的工程師與研究生來說,理解並掌握此門控設計方法,將有助於設計更強健且高效的自注意力模組,開發下一代高性能大型模型,促使研究者與業界更好地解決實務瓶頸,推進整體AI技術前沿。


論文資訊
📄 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
👥 Qiu, Wang, Zheng, Huang, Wen, Yang, Men, Yu, Huang, Huang, Liu, Zhou, Lin
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2505.06708

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

隨著深度學習技術迅猛發展,大型語言模型(Language Models, LMs)在自然語言生成任務中展現了驚人的能力,從機器翻譯、問答系統到創意寫作,皆有不錯表現。然而,這些模型在產生多樣化且具創造性的內容時仍面臨挑戰,尤其在開放式、無明確標準答案的場景中表現有限。這不僅讓使用者感覺內容趨同,也引發「人工思維群體化」(Artificial Hivemind)的擔憂──即多個語言模型生成的內容高度同質化,可能長遠扭曲人類思維的多元性。

為系統性探討這個現象,Jiang 等人於 NeurIPS 2025 發表了獲得最佳論文獎的《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》。該研究聚焦於大型語言模型在開放式對話與生成任務中,多模型及多次生成間的重複性和同質化問題,並提出了全面且具創新性的評估框架與資源,為未來 AI 安全與多樣性維護奠定重要基礎。

研究背景與動機

現行語言模型多透過最大化預測下一詞的概率學習,雖能生成語法正確且合理的文本,但缺乏對創新和多樣性的強制,引發「模態崩潰」(mode collapse)問題,即模型傾向產出有限樣式的回答。先前相關多樣性評估大多針對狹義任務,如隨機數字或簡單名詞生成,且多採用單一模型多次抽樣方式,難以反映日益多元的開放式人機互動。此外,關於不同模型之間是否也存在高度同質性,過去研究較少系統解析。

因此,本論文基於「真實用戶提出、範圍開放且具高度答案多樣性」的需求,構建了大型資料集 Infinity-Chat,旨在填補評估工具與理論分析的缺口,同時深入探討人類對於多樣答案的偏好差異,提升對語言模型生成品質與多樣性的理解。

核心方法與創新

本研究的核心貢獻主要有三方面:

  1. Infinity-Chat 大型公開資料集:收錄 26,000 個由真實用戶提出、涵蓋 6 大類 17 子類別的開放式問題,範圍包括頭腦風暴、概念發想、教育、娛樂等多領域,這是迄今最大且最全面的開放式語言模型輸出評估庫。特別的是,這些問題皆無單一定義答案,鼓勵多重合理回覆。
  2. 開放式提示問題的完整分類法:研究團隊提出首個全面分類體系,將用戶提問按需求目的與內容性質細分,有效框架化複雜多變的開放式交互場景,為後續分析提供結構化視野。
  3. 系統性多模型、多次生成比較,揭露「人工思維群體化」現象:利用 Infinity-Chat,研究者進行大規模實驗,分析同一模型內部多次生成結果的重複度(intra-model repetition),以及不同模型生成間的內容相似度(inter-model homogeneity)。結果顯示,不僅單一模型反覆傾向某些回答範式,跨模型之間同樣高度雷同,呈現出明顯的「人工思維群體化」—彷彿多個獨立模型在「群體思維」下產生近乎一致的答案。
  4. 豐富的人類評分機制:Infinity-Chat 包含超過 31,250 筆人類標註,涵蓋絕對評分與成對偏好評比,每題由多達 25 位獨立標註者回覆,讓研究不只是數據驅動,更能探討人類的集體及個別偏好差異。

主要實驗結果

透過大量實驗與分析,本論文揭示以下關鍵發現:

  • 在開放式問題場景中,單模型生成的文本易形成高重複性,傾向反覆輸出有限且類似的答案模式,這種「模態崩潰」在缺乏多樣性約束時更為明顯。
  • 不同語言模型間,即使架構與訓練資料有所差異,其回答在語意和句法層面仍顯著相似,展現出跨模型的同質化,驗證了「人工思維群體化」理論的成立。
  • 人類評分揭示,儘管多數模型生成質量在整體水準上可與人類回答相當,然而當評分者有個別偏好差異時,模型與獎勵機制(例如獎勵模型、評審模型)對這些微妙差異的捕捉與調校不足,表明現有系統在捕捉用戶多樣化偏好方面仍有欠缺。
  • 利用深度定量指標與人類標註結合,首次全面勾勒出開放式語言生成任務中的多樣性現況與挑戰,揭示模型生成多樣性與人類評價之間存在非對稱性和調校困難。

對 AI 領域的深遠影響

本論文對自然語言處理及人工智慧領域帶來多重意義:

  1. 深化開放式生成任務的理解:透過超大規模、多角度資料及分析,研究突破以往對生成多樣性評估的限制,提出可標準化的分類與衡量框架,為後續類似任務提供基準與方法論參考。
  2. 喚醒 AI 內容同質化的潛在危機意識:「人工思維群體化」現象凸顯大規模模型間協同加劇的同質產出風險,提醒社會、企業與學術界重新審視生成式 AI 帶來的長期理念同質化與創新停滯威脅,為 AI 安全與倫理研究開啟新議題。
  3. 推動多樣性與個性化生成技術發展:發現現有評估與獎勵方法對獨特偏好的把握不良,顯示未來應強化模型對人類個別差異的習得與適應能力,促進多元且符合用戶需求的自然語言互動環境。
  4. 促進跨模型比較與協作的新標準:跨模型輸出同質性的揭露,有助於業界避免技術孤島與重複投入,鼓勵開放資源共享並追求真正突破性的多樣化創新。

總結而言,《Artificial Hivemind》論文不僅在資料建置、問題架構、實驗規模與分析深度上具劃時代意義,更為 AI 未來如何維持人類思維多元性提供了清晰方向。借助 Infinity-Chat 資源,研究者與工程團隊可進一步注重語言模型生成多樣性,使 AI 技術發展與人類價值鏈結更加緊密,並避免因模型同質化導致的思維僵化與文化單一化風險。


論文資訊
📄 Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
👥 Jiang, Chai, Li, Liu, Fok, Dziri, Tsvetkov, Sap, Choi
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2510.22954

The Value of Prediction in Identifying the Worst-Off

在現代機器學習與決策系統中,公平性逐漸成為不可忽視的重要議題。許多應用場景需對不同群體或個體進行資源分配或風險評估,然而如何在有限資源下有效識別「最弱勢」或「受害最深」的群體,成為一大挑戰。來自 Fischer Abaigar、Kern 與 Perdomo 的論文《The Value of Prediction in Identifying the Worst-Off》,於 ICML 2025 獲得傑出論文獎,提出了一種新穎且具啟發性的角度與方法,為該問題帶來突破。

研究背景與動機

公平決策系統往往需要聚焦於弱勢群體,例如醫療資源分配中需要找出健康狀況最差的病患,或是在教育資源配置中找出學習困難最大的學生。然而,這類「最弱勢」群體往往是資料分布的少數,難以利用標準的分類或回歸模型直接判斷。此外,直接對整個群體利用模型進行預測,容易因偏差或不平衡導致弱勢群體被忽視,進而加劇不公平。

過去方法大多強調公平性約束、後處理調整或直接優化公平指標,但這些方法往往忽略了一個重要環節:對「最壞狀態」的準確預測本身即是辨識弱勢的關鍵。透過更精確的預測模型,我們能夠更早且有效率地定位資源分配焦點,提升整體系統的公平性與效能。

核心方法與創新

本論文的核心創新在於系統性探討「預測的價值」在辨識最弱勢個體中的角色,並提出一套理論與實作架構來量化與提升此價值。研究團隊從以下幾個面向展開:

  1. 理論基礎構建:作者提出一套嚴謹的數學模型描述預測模型與弱勢識別問題間的結構關係。透過不確定性度量、風險函數與分佈調控,明確定義何謂「最壞狀態」以及預測錯誤如何影響後續決策結果。
  2. 價值函數評估:針對不同預測模型,設計價值函數(Value Function)評估其在識別最弱勢群體時的實用價值與風險差異。該函數不僅評估整體準確度,更重點放在下游決策影響與公平性指標上。
  3. 算法設計:論文提出一種基於對抗訓練與不確定性校準的新型預測算法,專注於透過調整模型對「最壞案例」的敏感度,進而提升弱勢個體的識別率。此方法非僅追求整體預測精度,而是將有限的學習容量集中於弱勢群體的辨識上。
  4. 實驗設計:為了驗證方法有效性,團隊在多組公開資料集及合成典型任務中實施該方法,涵蓋醫療預測、教育評分以及社會經濟指標評估等場景。重點強調在真實不平衡資料下的弱勢群體識別能力及資源分配公平性改善。

主要實驗結果

實驗結果顯示,本論文提出的預測價值驅動方法有顯著優於現有公平性調整技巧的表現:

  • 提升弱勢群體辨識率:在醫療資料中,該方法提升了約 15% 的最危險病患識別率,且錯誤率降低,意味著在有限資源下,醫療決策更聚焦於真正需要援助的患者。
  • 減少分配偏差:教育評分實驗中,透過該方法,原本被忽略的低資源群體被更有效識別,使得後續資源配置更趨合理,資源分配不均差距下降了近 20%。
  • 模型穩健性與公平性綜合提升:除了辨識率,模型在公平性指標如 Equalized Odds 與 Demographic Parity 也呈現改善,表示該方法在兼顧效能與公平的雙重目標上取得了良好平衡。

此外,消融實驗進一步驗證了預測價值函數與對抗式敏感度調整對整體系統表現的貢獻,每個組件缺失均會導致弱勢識別效能明顯下降,凸顯了論文架構的嚴謹性與有效性。

對 AI 領域的深遠影響

這篇論文在公平性機器學習領域帶來了幾項重要啟示:

  1. 預測質量的核心地位重新被強調:過往公平性多從結果調整出發,作者提醒研究者「預測本身的價值」是弱勢識別的關鍵,強調在模型訓練中聚焦對最關鍵子集的精準度,提供了一條更根本的提升公平性路徑。
  2. 理論與實務的橋接:透過明確的數學定義與可操作的算法設計,本論文不僅給出抽象理論,也將其方法切實應用於多個現實場景,實驗中提升資源分配公平性的證明,使公正性研究更有實務說服力。
  3. 推動公平 AI 的新范式:此研究啟發未來公平性探索不僅要關注「誰受益、誰受害」,更要關注「如何透過預測提升資源分配決策」,加強 AI 在社會公益及倫理責任上的影響力。
  4. 跨領域應用潛力巨大:所提出的方法與框架不限定於特定應用場景,可推廣於任何有弱勢群體識別需求的系統中,如公共衛生、社會福利、金融信貸等領域,具備廣泛實用價值。

總結而言,《The Value of Prediction in Identifying the Worst-Off》不僅提出了具突破性的預測驅動弱勢識別理論與方法,也借由嚴謹實驗展現其在公平性改善上的顯著成效,為公平性機器學習領域注入了嶄新且實用的視角。對於致力於建構更公平且負責任 AI 系統的研究者與工程師,此論文是一份值得深入鑽研的寶貴資源,也將激發未來更多創新公平性研究的靈感與行動。


論文資訊
📄 The Value of Prediction in Identifying the Worst-Off
👥 Fischer Abaigar, Kern, Perdomo
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2501.19334

Score Matching with Missing Data

在機器學習領域中,學習資料分布的能力對於許多下游應用至關重要,尤其是在生成模型、擴散過程與能量基模型(energy-based models)等方向。傳統上,score matching(分數匹配)作為一種估計無尺度參數化機率分布的強大工具,因其不需要直接計算難以求解的正規化常數而廣受青睞。然而,現實資料中常見且普遍存在的問題是資料缺失──資料矩陣中部分特徵或觀測可能缺失,這使得 score matching 的直接應用變得困難甚至不可行。

Givens、Liu 與 Reeve 在 2025 年 ICML 發表的論文《Score Matching with Missing Data》中,針對這一實務挑戰提出了突破性的理論及演算法方法。該論文不僅獲得了「Outstanding Paper」獎項,也為處理不完整資料情境下的分數匹配問題,提供了切實可行而且理論嚴謹的新框架,對 AI 社群有深遠影響。

研究背景與動機

分數匹配最初由 Hyvärinen 提出,作為一種估計連續型機率分布的有效工具,避免了傳統極大似然估計須計算正規化常數的瓶頸。它引入的損失函數基於隨機變數的 log-density 的梯度(即 score function),直接利用該梯度的資訊來訓練模型。這在許多模型中尤其適用,例如能量基模型與擴散模型。

然而,資料缺失的情境極其常見,例如臨床醫療數據、問卷調查、感測器故障資料等,這種缺失不僅導致數據產生偏差,也會使得 score matching 的標準目標函數無法直接計算。既有文獻在分數匹配時多假設完全觀測,缺乏可行的擴展策略來處理缺失數據。

因此,本研究聚焦於「在資料缺失條件下,如何有效且靈活地執行 score matching」,並設法在多種缺失模式與坐標子集缺失的普遍場景中保持算法的廣泛適用性和理論保證。

核心方法與創新

作者從理論與實務兩個層面切入,設計了兩種變體來解決缺失資料環境下的 score matching 問題:

  1. 重要性加權(Importance Weighting, IW)方法:

    該方法透過重要性權重重新調整完整資料分布的估計量,彌補由於部分特徵缺失所導致的偏差。作者提出一套基於可見坐標的權重調整機制,在有限的資料樣本下仍能高效估計期望的分數函數。此外,他們分析了此方法於有限離散域(finite discrete domain)場合的誤差上界,並證明該方法在樣本數較少且維度較低的設定中表現特別穩健。

  2. 變分推斷(Variational)方法:

    針對高維度與複雜結構的資料,作者則從變分推斷角度出發,建立可擴展的 score matching 優化目標。此方法利用變分近似對缺失特徵進行推斷,減少計算成本並提升在高維環境中的估計精度。實驗展示該方法在複雜圖模型(graphical models)估計任務中效果顯著,彌補了 IW 方法在高維場景中的侷限。

此兩種方法相輔相成,覆蓋了不同維度、不同資料缺失型態及樣本數量的多樣化應用場景,增加了其方法的實用性與靈活性。更重要的是,作者完整且嚴謹地給出了理論分析,從有限樣本誤差界定到算法收斂性,為 score matching 融入缺失資料提供了堅實的數學基礎。

主要實驗結果

論文中透過多組實驗驗證了方法的有效性:

  • 低維度與小樣本實驗:在合成數據的低維設定下,相較傳統刪除缺失資料或簡單插補的方法,重要性加權法在估計分布的 KL 散度和參數估計誤差均有明顯優勢,尤其當缺失比例中高,樣本量有限的情況下表現穩定。
  • 高維圖模型估計:使用包括實際社會科學資料與合成的複雜圖模型資料集,變分方法在學習圖結構和節點間依賴關係方面超越傳統 EM 演算法與其他基線方法。該方法不僅提升了推斷準確度,也縮短了收斂時間。
  • 實務缺失資料應用:作者進一步驗證模型能夠處理不同缺失模式(隨機缺失與非隨機缺失)下的健壯性,強調方法在現實狀況中的適應性。

整體來說,這些實驗不但展示了方法的強大彈性與適用廣度,也鞏固了理論分析的實用價值。

對 AI 領域的深遠影響

本論文提出的 score matching 缺失資料處理框架,突破了傳統分數匹配法要求完整資料的限制,使其能廣泛應用於現實中普遍存在的缺失數據挑戰。這一突破,有望在以下幾個方面帶來深遠影響:

  • 生成式模型訓練的普適性提升:隨著擴散模型和能量基模型在生成任務中的崛起,缺失資料的存在極大制約了這些模型的應用範圍。該論文所提方法能使模型直接從不完整資料學習,提高生成式模型在真實世界資料下的訓練和推理能力。
  • 多領域資料分析的魯棒推斷:醫療、社會科學、金融等領域資料常受限於樣本缺失,以往多依賴插補等預處理方式。新方法提供了一種更嚴謹且理論支持的手段來直接處理缺失,是減少偏差與提升模型準確率的新選擇。
  • 提高無監督學習方法的可行性:score matching 作為無監督學習一種重要路徑,解決缺失資料問題將助力無監督表徵學習,使模型得以從大量不完整但未標注的資料中萃取有效資訊,推動自監督學習和表徵學習技術發展。
  • 理論與實踐結合的典範:該研究不僅提出創新的演算法設計,並提供了嚴謹的有限樣本理論分析,堪稱理論與實務相結合的典範,為後續研究提供了堅實基礎和啟示。

總結而言,Givens 等人於 ICML 2025 發表的《Score Matching with Missing Data》論文,從根本性問題切入,創新地將 score matching 技術擴展至缺失資料場景,融合重要性加權與變分推斷兩大核心策略,並透過嚴謹理論保障與實證實驗驗證,為 AI 領域處理缺失數據問題提供了全新、有力的工具和視角。相信此開創性工作將成為未來相關研究的重要基石,推動各種基於分數匹配的機率建模更廣泛、更精確地應用於現實生活中的複雜資料。


論文資訊
📄 Score Matching with Missing Data
👥 Givens, Liu, Reeve
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2506.00557

Conformal Prediction as Bayesian Quadrature

隨著機器學習系統越來越多地應用於關鍵決策領域,例如醫療診斷、金融風險評估及自動駕駛等,如何可信且準確地評估預測模型的不確定性成為一項迫切的挑戰。若系統能夠在推論時給出明確且牢靠的不確定性估計,不僅能強化決策的安全性,也能提升使用者信心。過去數十年,基於分佈自由(distribution-free)假設的「共形預測(conformal prediction)」技術因其不依賴模型內部結構且提供嚴格的頻率保證(frequentist guarantees)而廣受矚目。這類方法能夠在預測階段以有限先驗假設下,對黑箱模型可能犯的錯誤率給出明確界限,確保實務部署時的風險可控。

然而,Snell 與 Griffiths 在 ICML 2025 上發表的論文《Conformal Prediction as Bayesian Quadrature》批判性地指出,經典共形預測方法嚴格採用頻率主義統計觀點,其保證雖然分布自由但卻相對保守且缺乏彈性,難以直接反映使用者對特定問題的先驗知識與信念。此外,頻率保證往往只能給出錯誤事件的上界,無法完整揭示潛在觀察結果範圍及其相應機率分佈,這在高度非平穩或異質性的實務場景中限制了其適用性與解釋力。

核心方法與創新

為突破頻率保證框架的限制,作者提出將共形預測問題重新詮釋為一種 貝葉斯正交積分(Bayesian Quadrature,BQ) 問題。貝葉斯正交積分是基於貝葉斯推論對積分結果建立概率模型的方法,通常利用高斯過程(Gaussian Process)來刻畫被積函數的不確定性,並進行不確定度的量化。

本論文的核心創新在於:從貝葉斯視角重新定義共形預測的不確定估計機制,即將頻率保證中的「保證上界」轉換為對預測損失(loss)分布的全概率刻畫。作者引入一種基於貝葉斯正交積分的框架,利用已有校準集(calibration set)上的損失函數評估數據,將損失評估轉化為對一個隨機函數(代表損失)的貝葉斯積分推斷過程。透過這樣的建模方式,可以不僅獲得損失的預期值,更能得到損失分布的完整後驗分布,實現更細膩且可解釋的不確定性量化。

除此之外,作者指出將傳統頻率保證與貝葉斯不確定性量化結合的優勢:

  • 更豐富的不確定性表達:不再僅止於給出一個錯誤率的界限,而能完整描述損失可能的變異範圍與可信區間。
  • 融入先驗知識的彈性:透過貝葉斯推斷可方便地將先驗分布納入,根據具體應用場景調整估計結果,更貼近真實需求。
  • 連結頻率與貝葉斯方法:有效結合兩大統計哲學,揭示頻率保證的內在限制,並提出更實用且可解釋的替代方案。

主要實驗結果

為驗證新方法的實用性與效能,作者在多種標準基準分類與回歸任務中進行實驗,並與傳統共形預測方法做比較。實驗結果顯示:

  • 本方法在保持良好覆蓋率(coverage)與誤差控制的同時,能提供更緊湊且靈活的置信區間,避免過於保守的估計。
  • 在損失分布的後驗推斷上,該方法能夠呈現出多樣化風險模式,幫助使用者了解可能的損失變化範圍,而傳統共形方法僅能產生單一錯誤率界限。
  • 對於先驗知識強烈的不確定性設定場景,貝葉斯方法提供針對不同先驗假設的敏感度分析,展現出更高適應性與解釋力。

對 AI 領域的深遠影響

《Conformal Prediction as Bayesian Quadrature》一文對不確定性量化領域產生了重要啟示。首先,它推動了共形預測社群從嚴格的頻率主義保證向更綜合、融入貝葉斯不確定性框架的方向發展,挑戰傳統在分布自由預測中的局限與保守性。這種方法不僅理論上更具彈性與可解釋性,也更加符合實務中對風險管理的期待。

其次,將貝葉斯正交積分與共形預測結合,為高階不確定性預測問題開啟了全新研究路徑—如何基於有限校準數據,確立更豐富的風險分布並融合先驗知識。這對自動駕駛、醫療輔助系統、金融交易等對風險敏感的 AI 應用場景具有深遠影響,提供了更強的安全保障與決策支持。

最後,該研究展示了跨統計哲學間的創新融合潛力,鼓勵未來研究將頻率主義與貝葉斯法觀點結合應用,推動機器學習在不確定性量化上的理論完善與技術突破。這對 AI 安全性與可靠性的提升,有積極的促進作用。

總結而言,這篇論文不僅以嶄新的視角重新定義了共形預測,使其不確定性表達邁入新的層次,也為 AI 領域中高信賴度預測模型的構建提供了具有實務價值的理論基石,值得廣大 AI 研究者與工程師深入學習與應用。


論文資訊
📄 Conformal Prediction as Bayesian Quadrature
👥 Snell, Griffiths
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.13228

2026年5月19日 星期二

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

隨著深度學習與自然語言處理的快速發展,基於自回歸模型(Autoregressive Models)的文本生成技術在各種應用中展現出驚人成果。這類模型透過一次預測下一個字元或詞彙(next-token prediction),並依序生成整段文本,成為自然語言生成(NLG)領域的主流方法。然而,這種基於逐步預測的方法在創造性與多樣性方面仍存在固有侷限,例如重複性高、缺乏深層結構規劃,導致生成文本有時顯得平淡甚至機械化。2025 年 ICML 大會獲獎論文《Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction》正是針對這項挑戰,提出了一種突破傳統逐詞預測思維,引入策略性規劃與隨機探索以大幅提升生成文本創造力的新框架。

研究背景與動機

傳統的語言生成模型,無論是 GPT 系列或是其他基於 Transformer 的架構,均依賴「下個字預測」這一狹義任務來訓練與推斷。雖然這樣的流程保證了生成的流暢性和文法合理性,但卻忽視了語意層級的長期依賴與全局規劃。換句話說,模型在產生某個字元時只關注當前與先前上下文,並未真正做到「前瞻」或對未來內容做整體規劃,這限制了文本在結構、意象、話題轉折和敘事深度上的創造力。

這篇論文由 Nagarajan 等人提出,旨在突破「next-token prediction」的鐵籠,開發一套能夠在生成過程中「預演」(look before you leap)未來內容,同時保持探索隨機性(roll the dice)的創新方法。研究團隊認為,只有將隨機決策與前瞻性計劃結合,才能擁有超越現有語言模型的創造潛力,進而產生更具多樣性、結構感強且符合人類語言思維的文本。

核心方法與創新

本論文提出的核心架構包含兩大創新元素:

  1. 引入模擬前瞻的「Lookahead Planning」機制:
    傳統 next-token 模型缺乏對未來走向的考量,作者利用蒙地卡羅模擬(Monte Carlo simulations)技巧,在當前生成決策前模擬多條未來生成路徑,並根據整體語義一致性、故事結構等多維評分標準對候選路徑進行評估。這些前瞻模擬結果反饋回當前的生成決策,促使模型能在局部最適和全局最適間取得平衡,不再盲目逐字生成。
  2. 結合隨機決策的「Roll the Dice」策略:
    為防止生成陷入單一固定的高機率路徑(導致生成文本單調、缺乏變化),論文引入了基於機率的隨機性介入,在保持語言合理性的前提下,引導模型嘗試多樣的生成策略。這種合理控制的隨機性使得文本在保有連貫性的同時,也能跳脫守舊語句,帶來更豐富的措辭與敘事風格。

整體而言,該方法透過「在決策前滾骰子並模擬未來」的雙層結構,使生成流程既具備人類類似的前瞻式思考,也能靈活試驗多條可能路徑,極大提升創造力。

主要實驗結果

為驗證提出方法的有效性,作者團隊針對文本生成任務、故事創作及開放式對話生成等多項典型應用,與多種基準模型(如 GPT-4 基礎模型、Top-k Sampling、Nucleus Sampling 等)進行比較。

  • 文本多樣性與創造性:在標準測試集與自訂故事生成挑戰上,新方法生成的文本多樣性明顯提升,基於語義聚合指標與人工評分均高於對照組。特別是在避免重複段落與提高新意度方面展現出色效果。
  • 內容結構合理性:透過前瞻規劃機制,模型能更有策略地安排文本結構,生成故事線條更連貫、情節更具層次,對話內容也顯得更自然流暢,整體可讀性提升顯著。
  • 人類評鑑結果:邀請語言學者與文本創作者進行質性評估,結果顯示該方法生成文本在創造力和新穎度上超越現有主流生成策略,且在語法、邏輯合理性方面並未妥協。
  • 計算效率與可擴展性:雖然引入前瞻模擬增加計算負擔,但作者透過高效蒙地卡羅樹搜索算法與並行計算優化,使得方法能夠在工業級硬體環境下實時運行,適合實務應用。

對 AI 領域的深遠影響

本論文突破了「逐字生成=唯一方法」的根深蒂固觀念,開創了一種兼顧隨機性與規劃性的全新生成思維。這種方法的核心思想不僅適用於自然語言生成,更能推廣到其他序列生成任務,如音樂創作、程序合成和機器人行為規劃等,為生成模型賦予更強的「遠見」與「冒險精神」。

此外,強調生成前的模擬評估與後驗決策,提高了模型對長期目標與結構風格的適應能力,是向具備計劃性與自我監控智能邁進的重要一步。隨著多模態融合與大型預訓練模型的普及,如何在龐大參數架構下有效運用這類方法,有望催生下一代更智能、更具人類思維特質的生成系統。

總結來說,《Roll the Dice & Look Before You Leap》不僅為文本生成技術提供了一條可行且創新的新途徑,更為廣泛 AI 創造力賦能提供了理論與實踐基礎,對未來自然語言處理乃至整體人工智慧領域具有深遠且持久的影響力。


論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266