常用資訊速查

2026年6月1日 星期一

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

隨著大型語言模型(Large Language Models, LLMs)在自然語言處理(NLP)與生成式AI領域的蓬勃發展,次一詞(next-token)預測策略成為主流訓練和生成的方法。然而,雖然這類方法在多數語言理解與生成任務中表現優異,其固有的「近視性」也逐漸被揭示——即模型通常依賴局部上下文作出下個字元的最佳預測,卻難以長期規劃、更具前瞻性的創造思維受到限制。Nagarajan等人於ICML 2025發表的論文《Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction》即是針對此一瓶頸,從理論與實驗雙面向提出深入探討與突破性見解,並榮獲Outstanding Paper獎項肯定。

研究背景與動機

當前主流的生成式模型,如GPT系列,訓練目標多為最大化下個字元機率分布,即「next-token prediction」。這種方法在符合短期上下文模式及語言統計規律上十分有效,但當面臨真正需要長遠思考與高度創造力的複雜任務時,便顯得不敷使用。作者指出,現實世界中許多開放式任務,無論是字詞遊戲、類比思考,甚至類蛋白設計或數學題目構建,其本質涵蓋一個隱藏的、多步驟、不確定且具有探索性的規劃問題,這是next-token預測難以直接模擬的。

因此,作者希望搭建一套「最小但具代表性」的演算法任務,以模擬此類開放式的創造需求,藉由對比不同方法,量化並解析next-token預測在創新能力上的侷限,並探索能突破此限制的替代訓練與生成策略。

核心方法與創新

本論文核心構想在於設計一系列簡化且可控的抽象任務,這些任務可視為抽象知識圖譜上的隱式探索問題:

  • (一)發現新連結:透過在抽象符號結點間尋找尚未顯性記錄的連結,對應現實中的詞彙遊戲、類比推理、科研發現等。
  • (二)創造新模式:組合現有元素生成全新結構,例如數學題目設計、蛋白質結構預測等創新任務。

在這些任務上,傳統的以next-token為訓練目標的語言模型,由於著眼於短期、貪婪式的概率最大化,表現出明顯的探索不足與多樣性匱乏。作者對此提出了兩種主要突破方法:

  1. 無教師(teacherless)訓練方法: 藉由不借助預先標註的輸出目標,而是透過生成與評估結合的做法,模擬探索性策略,鼓勵模型進行長期規劃與嘗試多樣選擇。
  2. 擴散模型(Diffusion Models)應用: 與next-token生成不同,擴散模型通過逐步逆擾動過程(reverse diffusion)生成樣本,具備更強的隨機性與多樣性,促使結果跨越局部最優。

此外,本論文也在生成多樣性與文義連貫性之間找到巧妙平衡:

  • 傳統採用的溫度採樣(temperature sampling)會在生成階段調節概率分布的平滑度,增加隨機性,但可能破壞文法或語義連貫性。
  • 作者則提出「種子條件化(seed-conditioning)」的噪聲注入方法,直接於輸入層施加微小隨機擾動,能有效激發多樣性卻不犧牲輸出質量,實驗中更展現部分條件甚至勝過溫度採樣。

主要實驗結果

透過嚴謹實驗設計,論文展示如何在所設計的抽象任務下比較多種生成策略:

  • Next-token 預測模型: 雖然生成質量穩定,但在創造新知識連結及構造新模式的多樣性與創新性方面表現有限,容易陷入局部解。
  • 無教師訓練方法: 顯著提升生成輸出的探索性與多樣性,能更好捕捉複雜任務中所需的長期規劃能力。
  • 擴散模型: 能在控制文義合理性的前提下,產生更多原創且多變的內容,尤其在需跨越多步抽象狀態空間任務中更具優勢。

關於隨機性的控制方面,種子條件化帶來的噪聲注入,既保持生成連貫,又讓模型探索更多潛在解空間,成為一項輕量且有效的實作技巧。

作者亦公開了部分代碼與測試套件,促進後續社群對此問題進一步的研究與擴展。

對 AI 領域的深遠影響

本論文提出了一個系統性且概念清晰的框架,以「最小化抽象任務」的方式檢視目前語言模型在創意生成上的底層限制,為AI生成技術走向真正「創造力」水平提供參考依據。其影響力可從以下幾點說明:

  1. 理論層面: 清楚揭示next-token預測的內在侷限,促使AI研究從機率化語言建模進入更高層次的計劃與探索範式。
  2. 方法論層面: 融合無教師訓練與擴散模型,展示從單步預測到多步長程決策的演進路徑,並提出種子條件化這樣簡便易行的生成調節新手段。
  3. 應用層面: 為語言生成、科學發現、創新設計、藥物設計等多領域注入具有探索性和多樣性的生成策略,突破傳統生成模型的僵化與模式化。
  4. 社群推動: 透明公開代碼與測試平台,鼓勵業界與學術界對語言模型創造力限制的共同討論與跨領域合作。

總結而言,此篇作品不僅是對現有語言生成技術的深刻反思,更為日後打造具備「眼見未來」的AI系統奠定重要理論與方法基礎。AI 工程師與研究生若想深入理解生成模型如何從單純模仿,邁向真正的創造性思考,該論文提供了不可多得的洞察與實務指引。


論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266

沒有留言:

張貼留言