行有餘力則以學文: Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

2026年4月6日星期一

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

在當前自然語言處理（NLP）與生成模型領域中，基於「下一個字元預測」（next-token prediction）的訓練範式已成為主流。這類模型透過大量文本資料中每個字詞的連續性，學習在給定上下文下預測下一個字詞，看似擁有了閱讀理解與自然語言生成的能力。然而，隨著技術推進，研究者逐漸注意到此類方法在「創造性生成」這一更開放且複雜的任務上存在著顯著瓶頸：它們往往過於「目光短淺（myopic）」，難以實現長期規劃或追求出人意表的創新解答。Nagarajan 等人於 ICML 2025 發表的傑出論文《Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction》即針對此限制，提出全新的視角與實驗方法，試圖突破當前模型的創意天花板。

研究背景與動機

在現代生成模型中，例如 GPT 系列，它們的核心訓練目標是透過最大化每一步「下一個字元」的條件機率來完成學習，這使得生成過程高度局限於局部最佳，而非整體優化。這樣的「單步預測」策略在大多數語言任務中效果顯著，但對於需要「跨越多步驟」、「規劃未來狀態」或「探索未被觀察可能性」的開放式創意任務則顯得力不從心。換句話說，當任務需要模型不僅要在語言結構上合理，更必須在策略或概念層面進行隨機化的遠見規劃時，這類模型往往難以產出真正多樣且原創的結果。

此外，當前生成模型常用的多樣性調節方法如「溫度採樣（temperature sampling）」主要是在輸出層透過擾動機率分布來誘導多樣化，但此方法依然基於單步預測，缺乏從源頭即引入隨機化的機制。基於上述痛點，作者團隊希望設計一組簡潔而具代表性的「算法性任務測試床」，對比不同生成策略，並系統性探究生成模型的創造力極限與可能的突破方向。

核心方法與創新

本論文最重要的貢獻之一是設計了一組極簡但能反映真實世界開放性問題本質的算法性任務。這些任務抽象地模擬了許多需要創新思考的場景，主要涵蓋兩類：

抽象知識圖的隱式隨機規劃：例如聯想詞語遊戲、類比推理或科研過程，需要模型跨越多層關聯發現新連結。
結構與模式創建：如數學問題設計、蛋白質序列合成，需要貫穿多步邏輯且產生全新組合。

基於這種任務設計，作者系統地比較了三種生成方法：

標準的下一字元預測（Next Token Prediction）：最常用的生成策略，但本論文證明其在創造力方面的侷限與短視性。
無教師訓練方法（Teacherless Training）：不依賴人類示範，透過逆向推理等多步長期優化策略，表現出更高程度的創造性與探索能力。
擴散模型（Diffusion Models）：利用逐步去噪過程生成資料，天然具備多樣性探索的能力，被證明在完成多元與原創內容方面比傳統方法更具優勢。

另一項技術創新是作者提出的 「種子條件化（Seed-Conditioning）」 機制。不同於從輸出分布直接採樣的溫度調節，種子條件化在輸入層注入適度隨機噪音，既可維持生成結果的連貫性，又能更有效產生多樣化的輸出變體。在某些實驗條件下，該方法甚至超越了溫度採樣，成為誘導多元創作的新手段。

主要實驗結果

透過精心設計的最小算法任務，實驗清楚揭示以下幾點：

下一字元預測模型在生成多步長遠規劃內容時，表現明顯不如結合長期隨機策略的模型。此類模型傾向於選擇局部高概率路徑，欠缺跨步創新性思考。
無教師訓練和擴散模型優於傳統方法，特別是在要求多階段決策與組合創造性內容的任務中。這展示出多步驟、跨維度的隨機化學習對於實現更高層次創造力的必要性。
從輸入層注入噪音（種子條件化）不僅保持了語義與結構的一致性，也明顯提升了生成內容的多樣性。這種方法在部分實驗中比從輸出層調整溫度更有效。

此外，作者將代碼與任務框架開源，促使社群能在可控且可重複的環境中進一步研究生成模型的創意能力。

對 AI 領域的深遠影響

本論文以嚴謹的方法論與簡潔的任務設計，指出了當前 AI 文本生成最流行的訓練機制——下一字元預測的核心限制，並提供了可行的替代路徑。這對 AI 領域具有多方面的深刻影響：

創造力的量化與解析：透過該論文提出的極簡算法任務，研究者得以以更定量、可控的方式評估模型的創造力與長期思維能力，為未來研究奠定基礎。
生成模型架構的革新指向：傳統的 Next-Token 生成策略或許需被補充甚至取代，特別是在高創新要求的任務中。無教師訓練和擴散模型等方法被證明在多樣性與原創度上有顯著優勢，將激發後續架構與訓練方法的設計思考。
隨機性注入策略的新典範：種子條件化作為一種在輸入層調節隨機性的方式，在保持生成品質與加強多樣性間取得平衡，為生成模型調參與控制提供全新思路，有機會成為下一代生成調節的基石技術。
跨領域應用潛力：由於此研究模型所探討的策略跨越語言、數學、蛋白質設計等多個創造性領域，為 AI 在科學發現、藝術創作、教育設計等各方面注入新動能。

綜合而言，Nagarajan 等人提出的觀點和方法，挑戰了 NLP 與生成式 AI 既有的框架與瓶頸，開啟了以更遠見和創造力為導向的 AI 系統設計新局。對於希望在 AI 創新應用中尋求突破的工程師與研究生，此論文不僅提供了理論基礎，更指明了實踐的具體路徑，具有高度的理論價值與工程啟發性。

論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266