2026年6月18日 星期四

DreamFusion: Text-to-3D using 2D Diffusion —— 利用 2D 擴散模型實現文字到三維模型的轉換新突破

隨著深度學習在影像生成領域的持續突破,特別是基於大規模文本-影像資料訓練而成的擴散模型(Diffusion Models)在文字到影像(text-to-image)合成上的卓越表現,吸引了大量研究關注。然而,將類似技術延伸到三維(3D)物件生成,仍存在諸多技術與資源瓶頸:

  • 缺乏大規模且標註完整的文字-三維資料集,造成直接以三維資料訓練類似擴散模型不可行。
  • 三維資料本身的表現複雜,需設計高效且具魯棒性的三維去噪(denoising)模型架構,目前尚無成熟方案。

為突破這些挑戰,Poole 等人在 2023 年 ICLR 發表的《DreamFusion: Text-to-3D using 2D Diffusion》一文中,提出了一種創新方法,成功利用現有的預訓練 2D 文字到影像擴散模型,透過優化流程「反向」延伸生成三維模型,完全免去三維資料訓練,成為當年度 AI 頂會的傑出論文(Outstanding Paper)。

研究背景與動機

近年來類神經網路在文字描述生成影像(如 DALL·E、Stable Diffusion)取得驚人成果,引發人們想像將其能力投射到 3D 建模的需求,目標是直接從文字描述中生成高品質且自由視角可觀測的三維物件,應用於動畫製作、遊戲、虛擬實境 (VR) 與擴增實境 (AR) 等多元場景。

然而,三維資料的收集與註解成本極高,且三維模型在結構、光照、材質表現均較 2D 複雜,直接訓練一個三維擴散模型目前不切實際。此外,三維點雲、網格、或神經光場(Neural Radiance Field,NeRF)等表示方式十分多樣,也造成難以設計通用的生成架構。

基於此,DreamFusion 因應這些瓶頸,選擇創新地「借力使力」,不從頭訓練三維擴散模型,而是利用現成且已被大規模數據訓練的 2D 文字到影像擴散模型作為三維合成的「先驗」,設計出一種可兼容三維參數化模型的優化策略,並以深度夢境(DeepDream)式的梯度優化技術生成三維結構。

核心方法與創新點

DreamFusion 方法的核心在於如何利用已訓練好的 2D 擴散模型來指導三維模型的生成。具體來說,論文提出以下幾項關鍵技術:

  1. NeRF 作為三維模型表示:作者選擇使用神經輻射場(Neural Radiance Field, NeRF)作為三維表達方式。NeRF 能透過隨機射線採樣,渲染出任何視角下的 2D 影像,使得三維模型和 2D 表示直接聯繫起來。
  2. 利用 2D 擴散模型作為先驗:透過預訓練好的文字到影像擴散模型,DreamFusion 將該模型視為一種影像分佈的概率先驗,即對每一個文字提示,擴散模型能指導生成符合語義及視覺特徵的影像。
  3. 機率密度蒸餾(Probability Density Distillation)損失函數:這是方法的關鍵所在。DreamFusion 設計了一種特殊的損失,利用 2D 擴散模型對渲染圖像的概率密度進行蒸餾,指導 NeRF 中參數的梯度下降優化。此損失促使 NeRF 渲染出的 2D 影像越接近擴散模型所「認可」的文字描述影像分布,等同在三維空間尋找符合文字的物件形狀和材質。
  4. DeepDream 式優化流程:透過持續從 NeRF 中隨機選擇視角渲染影像,並將這些渲染結果送入 2D 擴散模型以計算損失,利用損失對 NeRF 參數反向傳播,不斷迭代,直至生成模型能在任意視角呈現出與輸入文字描述相符且高品質的 3D 物件。

整體來說,此方法不僅免去昂貴的三維標註資料,也不需修改現成擴散模型架構或重新訓練,而是利用擴散模型的強大先驗,在優化框架中引導三維生成。這在三維內容生成領域開創了一條全新方向。

主要實驗結果

在論文中,作者進行多項實驗以驗證 DreamFusion 的有效性:

  • 多樣化的文字提示生成 3D 物件:實驗示範能根據輸入的描述(如“紫色水母”、“精緻木製鳥屋”)生成視角自由轉動的三維模型,這些模型不僅形狀合理,且具有色彩及材質層次感。
  • 360度視角下渲染質量穩定:生成的物件能在任意視角下維持質感與語義的一致,展現了 NeRF 與 2D 擴散模型結合的效果。
  • 無需三維資料訓練即可達成競爭效果:DreamFusion 在無任何三維標註資料協助下,生成質量接近部分需要三維訓練資料的方法,展示出其資料高效性與實用性。
  • 自由光照條件的再照明能力:由於模型本質為神經光場,生成的物件能適應不同光照條件進行重建,增加應用彈性。

對 AI 領域的深遠影響

DreamFusion 提示了未來三維生成的一條新思路:利用已有且強大的 2D 預訓練模型做為先驗,通過設計有效優化策略,將二維強知識投射到三維空間,自然達成三維內容創作。

此作法的意義包括:

  • 解決數據瓶頸:避免直接依賴三維標註資料,突破資料稀缺限制,使得文字到三維的生成研究能大幅降低成本與門檻。
  • 模型重用與跨維度融合:展現預訓練大模型(尤其是擴散模型)跨任務、跨維度再利用的潛力,加速多模態 AI 技術應用演進。
  • 促進虛擬內容生成創新:DreamFusion 為 VR/AR、電影動畫、電玩等領域提供新工具,減少人工建模時間,並打開更豐富的即時自動化創作可能。
  • 提供新研究範式:其機率密度蒸餾損失設計與 DeepDream 式的優化思路,將啟發後繼研究者探討如何利用其他預訓練模型作為各式參數化生成器的指導先驗。

總結而言,《DreamFusion: Text-to-3D using 2D Diffusion》不僅突破了現有三維生成的技術瓶頸,更以創新模型融合及優化方法,開啟了文字到高品質三維模型生成的新時代。該研究展示了大規模預訓練擴散模型多模態活用的強大實力,對推動 AI 在三維空間的應用與發展有著深遠且廣泛的意義。


論文資訊
📄 DreamFusion: Text-to-3D using 2D Diffusion
👥 Poole, Jain, Barron, Mildenhall
🏆 ICLR 2023 · Outstanding Paper
🔗 arxiv.org/abs/2209.14988

沒有留言:

張貼留言