隨著深度學習的快速發展,特別是在生成模型領域的突破,文本到影像的產生技術(text-to-image synthesis)已展現出令人驚艷的成果。此類成果大多仰賴基於擴散模型(diffusion models)的架構,且訓練於龐大的影像-文字對資料集上。然而,要將此種技術推廣至三維(3D)模型的生成,面臨著多項根本性挑戰:三維資料標註的稀缺性、缺乏有效的三維去噪架構,以及龐大的計算需求。Poole、Jain、Barron 和 Mildenhall 在2023年ICLR發表的論文《DreamFusion: Text-to-3D using 2D Diffusion》出色地突破了這些難題,並獲得當年傑出論文獎(Outstanding Paper)。以下將深入探討其背景、核心創新、實驗成效及在AI領域的潛在影響。
一、研究背景與動機
過去幾年,基於擴散模型的文字生成影像系統(如DALL·E 2、Imagen、Stable Diffusion)徹底改變了AI生成式創作的圖像品質與多樣性,但這類技術全都限定於二維平面上。將文字轉化為具備多角度、可光照變化且可用於虛擬實境、AR/VR或遊戲開發的三維模型,對於創作與產業應用均有極大價值。然而,目前並無大規模標註文字的三維資料集,且訓練三維生成模型面臨數據瓶頸、模型架構設計複雜、計算資源要求高等問題。
DreamFusion團隊的主要動機為突破此瓶頸:可不依賴任何三維訓練資料,且以現有高效能的2D文字到影像擴散模型作為背後的「知識先驗」(prior),直接生成符合文字描述的三維物件。
二、核心方法與創新
論文的主要創新在於結合「機率密度蒸餾」(probability density distillation)的概念,利用預訓練過的2D文字到影像擴散模型,有效指引3D模型的優化過程,而無需對該2D模型做任何更動。
- 3D模型選擇與渲染:作者採用Neural Radiance Field(NeRF)作為基礎3D表示。NeRF能透過參數化函數,從任意角度合成2D影像,並具有細膩的光照與深度表現。
- 基於擴散模型的損失設計:一般擴散模型的優質效果來自於其逐步去噪能力,但直接用於3D模型有困難。DreamFusion透過一種深度夢境(DeepDream)式的優化流程,將NeRF隨機生成的視角渲染結果餵入2D擴散模型的反向過程,計算損失並反向傳遞給NeRF,調整3D模型使其生成的2D投影在文本條件下更具「真實感」與「語意一致性」。
- 機率密度蒸餾:該技術透過估計擴散模型的潛在機率分布,作為一種無監督且穩定的目標函數,鼓勵3D模型生成的渲染影像回歸擴散模型訓練時的影像語意空間。
- 免標註與架構靈活性:本方法不需任何3D資料訓練,亦不須改動既有的2D擴散模型,能充分利用市面上預訓練極佳的文字到圖像擴散模型,如Google的Imagen或OpenAI的DALLE-2。
綜合而言,DreamFusion使得3D模型生成問題可視為一個由2D模型引導的優化問題,NeRF作為可微渲染器,協助將2D loss回傳至3D空間,形成「文字 → 2D擴散模型 → 3D場景參數」的閉環。
三、主要實驗結果
透過大量定性和定量實驗,DreamFusion展示了高度多樣且質量優良的3D物件生成能力:
- 多角度視覺一致性:生成的3D模型能從任意視角渲染,保持對應文本描述的語意與視覺內容,顯示NeRF配合2D擴散模型損失有效地平衡了圖片細節與3D空間結構。
- 光照與組合靈活:生成場景可以進行重新光照與置入不同3D環境,展示實際應用於AR/VR與遊戲的潛力。
- 跨多種文本描述與複雜度:DreamFusion在各式物件(如動物、日常用品、幻想生物等)的生成展示出良好泛化能力,甚至在複雜的具體指令下仍能推出合理的3D形象。
- 與基線方法比較:本方法不依賴3D數據,效果優於傳統基於3D生成網路或嘗試使用2D生成模型直接拓展3D的方法,平衡了效率與品質。
此外,作者亦對損失函數設計、採樣策略及渲染設定進行了詳細分析,確保結果的穩定與可重現。
四、對AI領域的深遠影響
DreamFusion的技術與思路提供了文本到三維生成領域的一個全新解決方案,具有多方面的重要意義:
- 資料驅動與無監督學習的創舉:藉助預訓練的2D模型知識,突破3D資料稀缺的瓶頸,極大降低訓練三維生成模型的門檻,有助未來更多跨域生成模型的研發。
- 促進3D生成模型的普及化:隨著3D內容需求大增,此方法可加速3D內容的自動化生產,使創作者、設計師及遊戲開發者能以文字指令生成高品質3D資產,降低成本與專業門檻。
- 跨模態生成的典範示範:展示了如何在無需重新訓練擴散模型的前提下,巧妙結合不同維度(2D與3D)的模型能力,為未來多模態、多維度生成研究提供方向與啟發。
- 促成新興的互動式AI應用:結合虛擬實境(VR)、擴增實境(AR),甚至機器人等領域,能實現基於文字命令即時生成3D物件與場景,促進人機互動體驗升級。
綜上,DreamFusion以創新的優化框架與損失設計,證明了可將已有強大2D擴散模型的智慧有效轉換並應用於3D生成領域。未來隨著計算能力提升及更多擴散模型的出現,類似的跨域生成方法必將大幅推動整個AI生成技術的進步。
論文資訊
📄 DreamFusion: Text-to-3D using 2D Diffusion
👥 Poole, Jain, Barron, Mildenhall
🏆 ICLR 2023 · Outstanding Paper
🔗 arxiv.org/abs/2209.14988

沒有留言:
張貼留言