在當前人工智慧發展的浪潮中,語言模型(Language Models, LM)憑藉其強大的模式學習能力,成為生成任務中的中流砥柱。從 GPT 系列到更先進的預訓練模型,這些技術多基於「下一詞預測(next-token prediction)」的架構,亦即模型在生成文本時,逐步根據已生成字詞預測下一個最可能出現的詞彙。然而,這種「貪婪」且「近視」的預測策略,在遇到真正需要創意與遠見的任務時,顯露出了本質上的限制。本篇由 Nagarajan 等人於 ICML 2025 榮獲傑出論文獎的「Roll the Dice & Look Before You Leap」,便是基於此觀察,進一步挑戰並跳脫了下一詞預測的框架,試圖揭示並突破現有語言生成模型在「創造力」上的天然瓶頸。
研究背景與動機
下一詞預測的架構設計雖然簡潔有效,且在大量應用中表現出色,但本質上是一種短視近利的策略:它以最大化接下來一個詞的機率為目標,缺乏長期規劃與探索環節。當面對開放式且複雜的創意問題,例如新穎類比的發現、詞彙間抽象關係的挖掘,或是跨領域的新圖案建構,單純的下一詞預測機制便顯得捉襟見肘。為此,作者設計了一系列簡潔的「演算法任務(algorithmic tasks)」,以抽象且可控的方式模擬真實世界中需具備創造力與遠見的挑戰,並量化語言模型在這些情境下的表現極限;換言之,他們設計出一個測試生成模型創意表現的「最小測試床(minimal test-bed)」。
核心方法與創新
本論文核心提出兩項重要創新:
- 跳脫單步預測的創造力策略:作者分析指出,僅依賴 next-token prediction 的模型存在根本的「近視」問題,無法有效完成需長遠思考和隨機探索的任務。為此,他們以兩類任務示範模型需內隱的「開放式隨機規劃(open-ended stochastic planning)」:其一,是在抽象的知識圖譜中挖掘新奇連結(例如詞彙謎題、類比創造或研究靈感);其二,是建構新穎模式(例如數學題設計、蛋白質結構創新)。而針對這些任務,傳統下一詞訓練的模型效果不佳,相比之下「無教師訓練(teacherless training)」方法及「擴散模型(diffusion models)」能更好地生成多元且原創的結果,呈現了跨過 next-token 預測限制的新方向。
- 輸入層噪聲注入的隨機激發技巧「seed-conditioning」:為了在引進隨機性(促進創造力)時,又不破壞文本或輸出序列的內在一致性,作者提出一種將噪聲注入在模型**輸入層**的技術,即所謂的 seed-conditioning。經實驗發現,此法不僅在保持輸出合理性與流暢度上表現穩定,甚至在某些條件下,其效果優於目前廣泛使用的輸出層溫度採樣(temperature sampling)。該方法為生成模型的隨機控制提供了一個簡潔且有效的新機制。
主要實驗結果
論文中實驗細緻且嚴謹,重點如下:
- 作者透過設計的演算法任務,*-------------------------------------------------------------------------------------------------------------------------------------------- --以清晰的定量指標明確評估各種生成模型策略的「創造力」與多樣性。
- 實驗顯示,基於下一詞訓練的模型雖能產生高概率且合乎語法的輸出,卻在開放式、需長遠規劃的抽象任務中展現出明顯不足;交換成無教師訓練和擴散模型後,能更有效生成結構複雜且創新的解答。
- 使用 seed-conditioning 輸入層噪聲注入時,模型生成結果的隨機性提升,但文本質量和連貫性未被犧牲,對比溫度採樣在調節隨機性和保持邏輯性方面存在的缺陷,展現出更優越的生成控制能力。
對 AI 領域的深遠影響
本論文的貢獻不僅在於挑戰並實證了「下一詞預測」架構的極限,更重要的是:
- 提醒學術與產業界反思生成模型的設計哲學:現今多數生成模型的設計仍基於最大化下一詞機率,忽略了長期計劃與隨機探索的重要性。論文示範了此近視行為無法滿足真正創造力需求,呼籲後續研究需將規劃與隨機性融入生成過程。
- 推動生成模型架構向多步規劃與分布式隨機策略邁進:無教師訓練與擴散模型在其實驗環境中顯著超越 next-token learning,暗示未來生成技術的發展趨勢,尤其是在具挑戰性的創新應用場景。
- 引入新穎且有效的隨機注入策略-seed-conditioning:此方法不只優化了隨機性與一致性的權衡,更提供了一條簡便可行的技術路徑,可能迅速被業界廣泛採用來改善生成模型的多樣性和創造力。
- 建立了評估創意生成能力的最小測試床:此系統化方法可用於後續研究探索各類生成策略的創意潛能與限制,推動整個領域圍繞「創造力」展開更科學且可比較的研究。
總結而言,Nagarajan 等人透過這篇傑出論文,以嚴謹的設計和實證,揭露了現存語言模型架構在創造性任務上的致命短板,並提出了引入多步規劃與噪聲注入等新策略,有望引領生成式 AI 技術從「機械式模仿」轉向真正「創新生成」。這對於AI應用於文學創作、科學探索、藝術設計,以及生物醫學等多領域的突破,具有深遠而廣泛的參考價值。
論文與代碼公開連結:https://arxiv.org/abs/2504.15266
論文資訊
📄 Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction
👥 Nagarajan, Wu, Ding, Raghunathan
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2504.15266

沒有留言:
張貼留言