隨著大型語言模型(Large Language Models, LLMs)在自然語言生成與多種 AI 任務中取得顯著成果,基於「下一個字元預測(next-token prediction)」的訓練與推論機制成為主流。然而,這種逐步生成的機制在處理高度創造性、需要遠見規劃的任務時,往往暴露出「目光短淺」的侷限,難以自由跳脫現有語境、開展具深度連結的新型模式。本篇於 ICML 2025 榮獲 Outstanding Paper 獎的論文《Roll the Dice & Look Before You Leap》,由 Nagarajan 等人提出了一套創新視角與方法,針對此一核心瓶頸進行深入探討與突破,對於認知型 AI 創造力的研究提供理論與實驗上的重要貢獻。
研究背景與動機
過去數年 LLM 依賴下一個字元預測來進行序列生成,雖然在語言建模與文字生成功能上表現優異,但其本質是一步接一步的決策過程,缺乏「遠見規劃」能力。換言之,模型在每一步選擇時僅依據當下條件,而無法系統化地思考多步驟之後的構想走向,這在創意生成、複雜推理、抽象聯想等任務中形成一大障礙。
研究者們意識到,要突破 LLM 的創造性瓶頸,必須深入理解「創造力」底層運作,即是如何在抽象知識圖譜內尋找隱藏關聯,或是在生成新型結構(如數學題、蛋白質序列)時進行策略性探索。本論文提出,一味依賴單步的下一字元預測,無法完整涵蓋這類「開放式、隨機性、遠見」規劃任務,因此需要開發新的評估標準與生成策略。
核心方法與創新
為了系統性地探討此問題,作者設計了一組「極簡演算法任務集」(minimal algorithmic tasks),這些任務被抽象化為模擬現實開放式任務的需求,包括:(a)在抽象知識圖譜中發現新關聯,類似語言文字遊戲中的雙關語、類比推理或科研發現;(b)建構新模式,例如設計數學題目或者新型蛋白質序列。
這些任務本質上需要內隱的隨機性計劃機制,也就是「多步生成」而非局限於單步的下一字元判斷。基於此,作者對現有基於 next-token 逐步生成的模型提出深刻批判,主張此機制天生「目光短淺」,難以充分挖掘創造性潛能。
為了提供替代方案,論文引入了兩類多字元(multi-token)生成技術:
- 無教師訓練(teacherless training):透過不依賴標準概率分佈的學習機制,鼓勵模型探索多樣化策略,擴大創意疆界。
- 擴散模型(diffusion models):透過逐步「去噪」過程,以複雜隨機過程產生高多樣性且有結構的結果,克服 next-token 模式的限制。
此外,作者針對生成過程中如何引入隨機性但仍然保持結構一致性,提出了「種子條件化(seed-conditioning)」的新方法──直接在輸入層注入噪聲,作為驅動隨機性的觸媒。實驗證明,此方法在促使多樣性與連貫性兼顧上,成效不輸甚至優於傳統在輸出層進行溫度取樣(temperature sampling)的做法。這項創新意義重大,因為傳統溫度調控往往面臨隨機性與統一品質之間的兩難,而 seed-conditioning 開啟了對模型內部機制更細緻控制的可能。
主要實驗結果
透過事先精心設計的極簡創造性任務集,作者展開一系列嚴謹的實驗,證明如下幾點:
- Next-token 預測的短視性:在需要多步規劃和跨節點隨機探索的任務中,基於 next-token 的生成模型明顯表現受限,輸出缺乏創新與多樣性。
- 多字元方法優勢:無教師訓練和擴散模型在上述創造性任務中大幅超越傳統方法,能產生更多原創性與結構多變的結果,證實其更符合開放式創造需求。
- 種子條件化效果出色:將隨機噪聲注入至輸入層,不僅維繫了語境連貫性,還提升了生成作品的多樣化程度,並在某些任務上超越了常用的溫度采樣調控。
- 理論與實驗一致:概念分析與定量實驗互相印證,論文在理論解釋上下了大量功夫,強調創造力本質上是一種無法被局限在單步策略的長程隨機規劃過程。
對 AI 領域的深遠影響
本論文深刻挑戰了當前主流 AI 語言模型所固守的「下一字元預測」架構,揭示了其內在瓶頸及創造力的限制,並提出系統性替代思路。這對 AI 的未來研究具多方面啟示:
- 突破創造力瓶頸:作者提出的多字元生成與種子條件化方法,鼓勵後續研究開發更具遠見、具策略性跳躍的生成機制,有望催生更具人類創造力特色的人工智能。
- 擴展評估工具:極簡演算法任務集為開放式創造力提供了一個可控、量化的測試平台,方便學界更標準化測評 AI 創新能力,打破過去僅依靠定性觀察的場景。
- 融合多元生成機制:推動研究者跳脫傳統概率最大化的框架,思考如何結合擴散模型、無教師策略等多種生成技術,以迎合複雜抽象任務。
- 對下游應用的啟示:創造性強的 AI 可在科學研究(如新藥設計)、教育(題目生成)、文化產業(文學創作)等領域帶來革新。種子條件化降低生成隨機性與一致性的矛盾,為實際應用提供新技術支撐。
總體而言,《Roll the Dice & Look Before You Leap》不僅在創造力建模與生成技術上帶來突破,更在概念層面提出了「創造力即隨機長期規劃」的嶄新視野,鼓勵我們重新審視並超越現有 AI 技術框架。對於致力於推動更智慧、更具創新精神的 AI 系統的工程師與研究生而言,這篇論文堪稱必讀,提供了方法論、工具與啟發的三重寶藏。
論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266

沒有留言:
張貼留言