隨著大型語言模型(Large Language Models, LLMs)技術的迅速發展,基於「下個字元預測(next-token prediction)」的訓練方式已成為主流。然而,這種方法在面對需要創造性與長遠規劃的任務時,顯露出其先天的侷限性。2025 年 ICML 傑出論文《Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction》由 Nagarajan 等人發表,針對當前語言模型在創造力表現的瓶頸,提出了一套具有代表性且可控的極簡演算法任務(minimal algorithmic tasks),重新定義並實證語言模型創造力的限界與突破方向,為 AI 創造性表現的研究帶來重要啟示。
研究背景與動機
語言模型的訓練核心在於預測文本序列中下一個最有可能出現的字元或詞彙,這種「一步接一步」的策略雖然造就了驚人的語言理解與生成能力,卻有一個內在限制:模型目標是讓每一個生成步驟看起來「最合理」,但並不刻意進行長期計畫或全局探索。換言之,傳統的「next-token prediction」本質上是近視(myopic)策略,缺乏為達成遠大目標而在多步生成中進行探索與嘗試的能力。
現實中許多開放式任務,如創造性寫作、類比推理、科學研究以及新穎問題設計,都需要模型具備隱含的「隨機規劃能力」(stochastic planning),突破現有知識框架,挖掘新連結,創造新結構。然而,目前多數模型在這些領域的表現往往侷限於模仿訓練數據,缺乏真正的創新能力。
核心方法與創新
本論文的首要貢獻是設計一組極簡演算法任務,這些任務抽象化並模擬了開放式創造性的實際挑戰。任務主要分為兩大類:
- (a)連結發掘類:透過在抽象的知識圖(knowledge graph)中隱含規則,要求模型透過推理與探索來發現全新關聯,模擬語言中的文字遊戲、類比關係挖掘和科研創新。
- (b)結構構造類:需模型創造規則性模式,例如設計數學問題或新型蛋白質序列,考驗模型構建複雜結構的能力。
該研究強調,單純基於「下一字元預測」的模型天生「目光短淺」,因為每一步生成都是針對當下最可能的字元,而缺少組合多步選擇以達成宏觀目標的能力。為此,作者引入「無教師訓練(teacherless training)」與「擴散模型(diffusion models)」兩種多字元生成的技術,前者藉由讓模型自主探索多步生成路徑,後者則在生成過程中逐步去噪重構,兩者均能在開放式、不確定的任務中展現更高的多樣性與原創性。
此外,論文針對生成中「如何平衡隨機性與連貫性」提出新見解。傳統上,常用「溫度採樣(temperature sampling)」從輸出層增加隨機性,但會導致文本一致性下降。論文戰略性地將噪聲注入模型輸入層,稱為「種子條件(seed-conditioning)」,這不僅保持了較佳的連貫性,在某些情況下甚至優於傳統溫度採樣,成為控制創意與合理性的有效手段。
主要實驗結果
透過所設計的極簡任務組,作者進行系統性比較與分析,結果顯示:
- 基於下一字元預測的模型於開放式創造任務上的多樣性及創新能力明顯不足,生成結果多偏向平滑保守,缺少突破性的思考跳躍。
- 無教師訓練與擴散模型展示出顯著提升,生成的路徑在探索未知知識圖連結或結構組合時更為多樣和富有創新,亦更好地完成了多步推理與規劃任務。
- 在隨機性注入策略方面,種子條件的效果出乎意料地好,不僅保持語意連貫,還促使模型在抽象搜索空間中得以更有效率的隨機跳躍,提升了模型進行「遠見決策(far-sighted leap)」的能力。
該系列實驗提供了清晰且可重複的分析平台,促使研究者能精確量化語言模型在創造力方面的瓶頸與突破點。
對 AI 領域的深遠影響
此研究在理論與實務層面均激起重大反思與啟示。首先,它挑戰了現有大型語言模型過度依賴「下一字元預測」的主流訓練思維,指出此方法固有的時間短視問題及創造力的天花板,提示我們未來要超越模仿—走向真正的自主創新與長期策略規劃能力。
其次,論文提出的極簡化任務及探索框架,提供了 AI 創造力研究中一套標準化的測試床,讓後續研究能在可控環境中精確比較不同生成機制與策略,有助於推動創意 AI 的系統化發展。
此外,種子條件的噪聲注入方法也暗示了生成模型未來可以在結構化的隨機控制上做出更多嘗試,而非單純仰賴標準采樣方式,這有望改寫生成模型中隨機性與一致性的傳統爭論,從而激勵更靈活與智能的生成機制。
總結來說,Nagarajan 等人透過理論嚴謹且實驗充分的論證,推動我們重新審視語言模型生成的本質限制及未來可行突破路徑,為 AI 創新能力的提升開闢出一條新穎且締造性極高的研究藍圖。對研究生與工程師來說,本論文提供了必讀的視角切入點,理解並思考如何設計更智慧、更具前瞻性思考能力的 AI 系統,是未來創造智能 agent 的重要基石。
論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266
