2026年6月27日 星期六

DreamFusion: Text-to-3D using 2D Diffusion 深度簡介

隨著深度學習不斷突破,文字到影像(text-to-image)的合成技術已經取得驚人的進展,尤其是擁有數十億影像與文本對應訓練的擴散模型(diffusion models),像是DALL·E 2和Stable Diffusion等,讓機器能夠根據文字描述生成高品質的2D影像。然而,如何將同樣的「從文字生成三維物件(text-to-3D)」的技術推廣應用,一直是3D視覺與生成領域的巨大挑戰。主要難題在於缺少大型、標註完整的3D數據集,以及用於3D去噪的高效網絡結構,這使得純粹訓練一個3D的擴散模型變得不切實際。

在此背景下,ICLR 2023獲得「Outstanding Paper」獎項的論文《DreamFusion: Text-to-3D using 2D Diffusion》,由Poole、Jain、Barron與Mildenhall等人提出了一套突破性的解決方案,他們巧妙地利用已有的預訓練2D文字到圖像擴散模型,間接地完成文字到3D模型的合成,避免了對3D數據集和3D擴散模型的依賴,為3D生成領域開拓了新思路。

研究背景與動機

過去生成3D模型的方法多半依賴傳統的3D建模技巧,或者從多視角照片進行3D重建。近年也有透過神經網絡學習3D表示(例如Neural Radiance Fields,簡稱NeRF),利用稠密的2D影像資料重建高品質3D場景。然而,從純文字生成3D模型則相當困難,主因在於:

  • 缺乏大規模的文字-3D模型對應訓練資料,難以直接訓練像2D擴散模型那樣的端到端3D生成模型。
  • 3D資料的表示形式多樣(點雲、網格、體素、帶權色射線場等),訓練3D擴散模型在計算和記憶體方面負擔極重,且模型架構尚未成熟。

因此,作者團隊希望能夠「借用」2D文字圖像擴散模型的強大語意與生成能力,繞過3D資料及3D模型限制,達到直接從文字描述生成可自由旋轉、具有實際照明效果的3D物件。

核心方法與創新

DreamFusion的核心構思是結合NeRF作為3D模型表示架構和已經訓練好的2D文字到影像擴散模型作為強力先驗(prior),以優化一個隨機初始化的NeRF,使得其從不同視角渲染的2D投影,能夠在擴散模型的語意空間中達到高度一致且符合文字描述的影像。全流程不用修改或重新訓練2D擴散模型,也不需要任何3D標註數據。

1. Neural Radiance Field表示3D物體
NeRF利用類似體積渲染的方法,將每個3D空間點映射成顏色與密度,在經過積分後生成2D投影影像。它能表示高解析度且光照一致的3D場景,是目前3D重建與渲染的主流技術。

2. 利用2D擴散模型作為優化目標
2D擴散模型本質上是一種生成概率模型,能夠從噪音中逐步還原符合文字描述的影像。DreamFusion使用一種稱為「概率密度蒸餾(probability density distillation)」的方法,將擴散模型中計算的loss(即擴散模型認為影像符合描述的程度)反饋給NeRF的參數,透過梯度下降優化NeRF,使得NeRF渲染的影像能在擴散模型中獲得低loss。

3. DeepDream風格的優化流程
類似Google DeepDream的概念,作者並不是直接生成影像,而是「誘導」3D模型產生使2D投影在語意空間符合文字描述的影像。每次訓練過程中,NeRF隨機生成不同角度視角的2D視圖,計算擴散模型的loss,反向傳播更新NeRF參數。

4. 不需3D標註資料也不改動擴散模型
DreamFusion的設計重點是「零3D監督」:整個流程沒有使用任何3D訓練資料或3D真實物件的標註信息。且使用的擴散模型完全保持不動,避免了高昂的訓練成本及重新設計複雜模型的需求。

主要實驗結果

作者在多種文字描述上,展示了DreamFusion生成的3D物件,涵蓋動物、日常用品、幻想風格物體等,並用不同角度渲染比較。結果顯示:

  • 生成的3D模型具備優秀的視角一致性,從任意角度觀看均可維持高解析度與細節。
  • 提供的NeRF模型支持動態光照調整,物件在不同光源照射下依然呈現自然的反射與折射效果。
  • 與同時期其他基於多視圖合成或強監督方法相比,DreamFusion免訓練3D專用資料的優勢明顯,且生成質量達到甚至超越部分標註依賴方法。
  • 定量評估中,針對語意匹配度與3D渲染質量的客觀指標均有穩定提升,說明2D擴散模型先驗確實為3D生成提供了有效的語意約束。

對 AI 領域的深遠影響

DreamFusion的提出,開創了一條利用2D預訓練模型作為3D生成先驗的新路徑,突破了傳統3D生成的資料瓶頸和模型設計挑戰。其意義可從以下幾點來探討:

  1. 將2D擴散模型作為3D生成先驗的典範
    傳統的3D生成任務缺乏資料與運算支持,DreamFusion成功示範了如何利用早已訓練良好的2D模型做為引導,讓3D生成問題不再被3D數據不足所制約,為多模態生成模型的跨維度應用奠定基石。
  2. NeRF等3D表示結合文本生成的跨領域融合
    透過結合NeRF的高質量3D渲染能力與自然語言的建模能力,該方法擴展了NeRF應用範圍,未來可用於遊戲開發、虛擬實境、動畫製作及個性化3D內容生成。
  3. 降低3D內容創作門檻,促進產業創新
    傳統3D建模需要專業技術人員操作,而DreamFusion提供了只需輸入文字描述即可生成3D模型的方法,極大提升創作者效率,未來可能成為影像設計、電影視覺特效與虛擬電商平台的核心技術。
  4. 引領多模態生成模型研究的新方向
    DreamFusion展現了多模態生成任務如何藉助“先驗蒸餾”和現有強大模型進行零樣本學習,對後續跨模態生成、生成模型可擴展性與通用性研究有巨大啟發,促使學界加速多模態模型的融合與擴展開發。

總結來說,DreamFusion於ICLR 2023不僅展示了突破性的技術實現,更在理論與工程上創造了模塊化且高效的3D生成新框架。該框架以強大的2D擴散模型為基礎,結合NeRF的3D表示,成功跨越了3D數據稀缺的瓶頸,開啟了文本驅動3D生成的全新視野。對於未來3D人工智慧、虛擬內容生成以及人機互動等領域都具有深遠的推動力和啟發價值。


論文資訊
📄 DreamFusion: Text-to-3D using 2D Diffusion
👥 Poole, Jain, Barron, Mildenhall
🏆 ICLR 2023 · Outstanding Paper
🔗 arxiv.org/abs/2209.14988

沒有留言:

張貼留言