行有餘力則以學文: Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

2026年6月22日星期一

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

在當前人工智慧發展的浪潮中，語言模型（Language Models, LM）憑藉其強大的模式學習能力，成為生成任務中的中流砥柱。從 GPT 系列到更先進的預訓練模型，這些技術多基於「下一詞預測（next-token prediction）」的架構，亦即模型在生成文本時，逐步根據已生成字詞預測下一個最可能出現的詞彙。然而，這種「貪婪」且「近視」的預測策略，在遇到真正需要創意與遠見的任務時，顯露出了本質上的限制。本篇由 Nagarajan 等人於 ICML 2025 榮獲傑出論文獎的「Roll the Dice & Look Before You Leap」，便是基於此觀察，進一步挑戰並跳脫了下一詞預測的框架，試圖揭示並突破現有語言生成模型在「創造力」上的天然瓶頸。

研究背景與動機

下一詞預測的架構設計雖然簡潔有效，且在大量應用中表現出色，但本質上是一種短視近利的策略：它以最大化接下來一個詞的機率為目標，缺乏長期規劃與探索環節。當面對開放式且複雜的創意問題，例如新穎類比的發現、詞彙間抽象關係的挖掘，或是跨領域的新圖案建構，單純的下一詞預測機制便顯得捉襟見肘。為此，作者設計了一系列簡潔的「演算法任務（algorithmic tasks）」，以抽象且可控的方式模擬真實世界中需具備創造力與遠見的挑戰，並量化語言模型在這些情境下的表現極限；換言之，他們設計出一個測試生成模型創意表現的「最小測試床（minimal test-bed）」。

核心方法與創新

本論文核心提出兩項重要創新：

跳脫單步預測的創造力策略：作者分析指出，僅依賴 next-token prediction 的模型存在根本的「近視」問題，無法有效完成需長遠思考和隨機探索的任務。為此，他們以兩類任務示範模型需內隱的「開放式隨機規劃（open-ended stochastic planning）」：其一，是在抽象的知識圖譜中挖掘新奇連結（例如詞彙謎題、類比創造或研究靈感）；其二，是建構新穎模式（例如數學題設計、蛋白質結構創新）。而針對這些任務，傳統下一詞訓練的模型效果不佳，相比之下「無教師訓練（teacherless training）」方法及「擴散模型（diffusion models）」能更好地生成多元且原創的結果，呈現了跨過 next-token 預測限制的新方向。
輸入層噪聲注入的隨機激發技巧「seed-conditioning」：為了在引進隨機性（促進創造力）時，又不破壞文本或輸出序列的內在一致性，作者提出一種將噪聲注入在模型**輸入層**的技術，即所謂的 seed-conditioning。經實驗發現，此法不僅在保持輸出合理性與流暢度上表現穩定，甚至在某些條件下，其效果優於目前廣泛使用的輸出層溫度採樣（temperature sampling）。該方法為生成模型的隨機控制提供了一個簡潔且有效的新機制。

主要實驗結果

論文中實驗細緻且嚴謹，重點如下：

作者透過設計的演算法任務，*-------------------------------------------------------------------------------------------------------------------------------------------- --以清晰的定量指標明確評估各種生成模型策略的「創造力」與多樣性。
實驗顯示，基於下一詞訓練的模型雖能產生高概率且合乎語法的輸出，卻在開放式、需長遠規劃的抽象任務中展現出明顯不足；交換成無教師訓練和擴散模型後，能更有效生成結構複雜且創新的解答。
使用 seed-conditioning 輸入層噪聲注入時，模型生成結果的隨機性提升，但文本質量和連貫性未被犧牲，對比溫度採樣在調節隨機性和保持邏輯性方面存在的缺陷，展現出更優越的生成控制能力。

對 AI 領域的深遠影響

本論文的貢獻不僅在於挑戰並實證了「下一詞預測」架構的極限，更重要的是：

提醒學術與產業界反思生成模型的設計哲學：現今多數生成模型的設計仍基於最大化下一詞機率，忽略了長期計劃與隨機探索的重要性。論文示範了此近視行為無法滿足真正創造力需求，呼籲後續研究需將規劃與隨機性融入生成過程。
推動生成模型架構向多步規劃與分布式隨機策略邁進：無教師訓練與擴散模型在其實驗環境中顯著超越 next-token learning，暗示未來生成技術的發展趨勢，尤其是在具挑戰性的創新應用場景。
引入新穎且有效的隨機注入策略－seed-conditioning：此方法不只優化了隨機性與一致性的權衡，更提供了一條簡便可行的技術路徑，可能迅速被業界廣泛採用來改善生成模型的多樣性和創造力。
建立了評估創意生成能力的最小測試床：此系統化方法可用於後續研究探索各類生成策略的創意潛能與限制，推動整個領域圍繞「創造力」展開更科學且可比較的研究。

總結而言，Nagarajan 等人透過這篇傑出論文，以嚴謹的設計和實證，揭露了現存語言模型架構在創造性任務上的致命短板，並提出了引入多步規劃與噪聲注入等新策略，有望引領生成式 AI 技術從「機械式模仿」轉向真正「創新生成」。這對於AI應用於文學創作、科學探索、藝術設計，以及生物醫學等多領域的突破，具有深遠而廣泛的參考價值。

論文與代碼公開連結：https://arxiv.org/abs/2504.15266

論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266

行有餘力則以學文

2026年6月22日星期一

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2026年6月22日 星期一

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

研究背景與動機

核心方法與創新

主要實驗結果

對 AI 領域的深遠影響

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2026年6月22日星期一