2026年4月30日 星期四

DreamFusion: Text-to-3D using 2D Diffusion 深度解說

隨著生成式 AI 持續推陳出新,特別是在文本驅動的影像合成領域,像是以擴散模型(diffusion models)為基礎的 Stable Diffusion、DALL·E 2 等系統屢屢創造令人驚豔的高品質 2D 影像,成為目前人工智慧生成內容(AIGC,AI-generated content)的核心技術。然而,把這股文本到影像的成功經驗直接移植到三維(3D)空間合成,長期以來卻面臨極大挑戰。一方面,三維資料集尤其是帶有語義標註的大型 3D 資料集不易取得;另一方面,三維資料的生成與優化需大幅度改良模型架構和運算效率,以處理更複雜的空間幾何與光影資訊。本文《DreamFusion: Text-to-3D using 2D Diffusion》正是在此背景下誕生,成功突破了「沒有大量 3D 標註資料,如何做到從文字直接生成 3D 模型」的難題,獲得 ICLR 2023 的 Outstanding Paper 獎項,具有指標性意義。

研究背景與動機

生成式文本到影像的模型主要仰賴數十億對圖文對應的訓練數據,訓練出可以從任一文字敘述中合成「寫實」或「藝術風格」的二維圖像。然而,現有的三維生成模型多數需要配合專門的 3D 資料集如 ShapeNet,甚至自己合成對應多視角串流等,且訓練過程非常耗費資源。更重要的是,直接對 3D 空間中進行擴散模型的降噪(denoising)操作,目前仍無有效且被廣泛接受的模型設計。這種技術、資料的鴻溝讓 3D 生成仍是一大制約。

Poole 等人便以此為切入點,提出一種巧妙地「換個角度」利用現成 2D Text-to-Image 預訓練擴散模型的技術,讓 3D 生成不再依賴大量 3D 訓練資料,且無需重新設計三維擴散架構。透過所謂的「機率密度蒸餾(probability density distillation)」損失函數,把 2D 影像擴散模型當作先驗知識,反向優化參數化的 3D 模型,使得該 3D 模型在不同視角下渲染出來的圖像都符合該文字提示的語義。

核心方法與技術創新

DreamFusion 的核心是結合了 Neural Radiance Field(NeRF) 與「2D diffusion model as a prior」的創意。NeRF 是一種可表示三維場景的連續隱式函數模型,透過多視角的 RGB 影像訓練,可以重建精細的三維結構及光學特性。DreamFusion 並未直接訓練 NeRF,而是從隨機初始化的 NeRF 開始,藉由 2D 擴散模型指導逐步優化參數,使 NeRF 在任一視角渲染的圖像皆與給定文字提示相符。

整體流程如下:

  • 先有一個預訓練好的文本到圖像擴散模型(例如 Imagen)作為「評分器」。
  • NeRF 被初始為隨機狀態。
  • 從這個 NeRF 中隨機選擇多個視角(camera pose)生成 2D 圖像視圖。
  • 使用「機率密度蒸餾」的方法,計算這些渲染圖像在擴散模型上的 loss,衡量它們與給定文字描述的匹配程度。
  • 透過反向傳播,優化 NeRF 參數,讓渲染圖像逐步更貼近擴散模型在文字提示上的分布。

這裡「機率密度蒸餾」是一種將複雜擴散模型的概率分佈資訊,以損失函數形式傳遞給另一模型的方法,是本論文重要理論突破。它允許原本是 2D 圖片的生成先驗,用於導引 3D 空間中 Neural Radiance Field 的參數優化。此方法避免直接訓練或設計 3D 擴散模型,降低實作難度。

此外,DreamFusion 採用了類似 DeepDream 的優化策略,即影像取梯度反向推導細節,讓模型產生越來越符合理想語義的特徵;不需用生成對抗網路(GAN)那樣複雜的訓練框架,也能達成穩定的 3D 建模。

主要實驗結果與展示

Poole 等人在論文中提供了多組實驗來驗證 DreamFusion 的效果:

  • 高質量多角度 3D 重建:從文本描述產生出清晰且三維一致的模型,且可任意旋轉觀看,不會出現 2D 預測模型常見的扭曲現象。
  • 光照調整與場景整合:生成的 NeRF 能在不同光照條件下呈現合理反射與陰影,支援置入虛擬場景中,顯示生成物具有實用的真實感。
  • 無須 3D 標註資料:DreamFusion 從零開始,無需任何 3D 監督訓練,大幅降低了資料需求門檻。
  • 與其他方法比較:與基於 3D GAN 或直接設計的 3D 擴散模型相比,DreamFusion 在質量與紮實度上展現競爭力甚至優勢,且訓練流程更簡約。

論文中透過豐富的定性視覺結果與定量評估(如 CLIP 分數等評估語義一致性),展示了 DreamFusion 在文本生成 3D 領域的前端地位。值得注意的是,因為優化為基於梯度下降,每次生成會比 2D 圖像慢且耗時,但得益於使用的先驗模型高度穩定,結果穩定度良好且非常惹人驚艷。

對 AI 領域的深遠影響

DreamFusion 的貢獻不僅止於生成一個有趣的技術,而是從根本改變了如何看待跨模態生成利用先驗模型的思維方式。它提出的「利用 2D 預訓練擴散模型作為 3D 生成優化的先驗」概念,開創了新途徑,屬於一種跨維度(2D → 3D)知識轉移與蒸餾的典範。以下幾點尤為重要:

  • 彌補資料缺口:3D 數據稀缺與標註困難長久以來制約了 3D 生成與理解技術。DreamFusion 示範即使無 3D 標註資料,也能藉助強大 2D 模型來學習,為未來跨領域多模態 AI 提供可借鑑框架。
  • 生成模型穩定性提升:透過先驗知識的蒸餾與優化,生成出的 3D 結構更加合理與連續,減少了三維生成常見的錯誤與模糊。
  • 實務應用潛力巨大:DreamFusion 生成的 3D 模型可直接在遊戲、虛擬實境(VR)、擴增實境(AR)與電影特效等領域中使用,加快內容創造流程,促進 AIGC 在更高維度的發展。
  • 引發後續研究熱潮:論文釋出後,學術界與工業界相繼探索以類似思路將 2D 擴散模型應用於 3D 或其他領域(如視頻、音頻等)的生成問題,促使多維度生成模型架構得以快速演化。

總結而言,DreamFusion 以巧妙架構設計與理論創新為橋梁,強化了文本到 3D 生成的可行性和普適性,為 AI 生成三維內容樹立了新的里程碑。對於研究生與工程師而言,理解其背後的概率蒸餾理念、擴散模型作為先驗的運用,以及 NeRF 可微渲染於優化中的精準結合,皆是未來跨模態生成、三維視頻分析與真實感渲染不可或缺的技術基石。


論文資訊
📄 DreamFusion: Text-to-3D using 2D Diffusion
👥 Poole, Jain, Barron, Mildenhall
🏆 ICLR 2023 · Outstanding Paper
🔗 arxiv.org/abs/2209.14988

沒有留言:

張貼留言