隨著人工智慧(AI)技術的發展,文本生成圖像(text-to-image)領域取得了驚人的突破,特別是基於大規模圖文配對數據訓練的擴散模型(diffusion models)技術,如 DALL·E 2、Stable Diffusion 等,能夠根據輸入文字生成高度逼真的 2D 圖像。然而,從 2D 走向 3D 的合成,尤其是「文字到 3D 內容生成」(text-to-3D synthesis)的挑戰仍相當巨大。
在過去,想要實現從文字直接生成可互動的 3D 模型,需要大量標註好的 3D 訓練數據,而這類數據資源十分稀缺且難以取得。同時,3D 擴散模型的計算需求也遠高於 2D,尚缺乏有效回噪(denoising)3D 數據的架構。面對這些挑戰,Poole 等人於 2023 年 ICLR 發表了傑出論文《DreamFusion: Text-to-3D using 2D Diffusion》,提出一種巧妙利用已有 2D 擴散模型作為先驗(prior)來生成 3D 模型的新穎方法,讓文字到 3D 的生成更為可行且高效。
研究背景與動機
隨著擴散模型在 2D 生成領域的成功,研究者嘗試將其威力延伸至 3D 內容生成。3D 內容不僅涵蓋物件的形狀,還包含可從任意角度檢視的幾何結構與光學特性,對計算與數據的需求遠超過 2D。然而,目前缺少龐大且高品質的標註 3D 數據集來訓練類似 2D 擴散模型,且直接開發 3D 擴散網絡技術尚未成熟。
因此,DreamFusion 的核心動機便是:「如何在沒有任何 3D 訓練數據和不需改動已預訓練的 2D 擴散模型的情況下,利用其強大能力創建 3D 模型?」這不僅可以解決數據瓶頸,更能充分發揮現有大量 2D 文本生成模型的效果。
核心方法與技術創新
DreamFusion 的方法核心在於結合兩件已有技術:預訓練的 2D 文本到圖像擴散模型與基於神經放射場(Neural Radiance Fields,NeRF)的 3D 表示方法。NeRF 已被證明可以高效且逼真地重建和渲染 3D 場景,但要直接用文字來優化 NeRF 參數非常困難。
論文提出的關鍵創新是設計一個以「機率密度蒸餾」(probability density distillation)為基礎的損失函數。此損失透過利用擴散模型作為圖像生成的先驗,來評估從 NeRF 渲染出的 2D 圖像與目標文本描述的一致性,具體做法如下:
- 首先,NeRF 代表的 3D 模型從隨機視角渲染出 2D 圖像。
- 利用預訓練的 2D 擴散模型計算該圖像對應目標文字的「罰分」(loss)或「擴散概率」。
- 透過反向傳播(gradient descent)優化 NeRF 的參數,讓它生成的 2D 渲染圖像更符合輸入文字的描述,損失逐步降低。
此流程類似 DeepDream 技術(Google 的一種基於神經網絡反向傳播生成藝術圖像的方法),目標是讓 3D 模型的所有視角渲染圖像均具備高語義匹配度。藉由此方式,DreamFusion 完全繞過了傳統需要 3D 訓練數據的限制,而直接運用已有強大且訓練充分的 2D 擴散模型做為指導。
主要實驗結果
研究團隊在多種文字提示下驗證 DreamFusion 的能力,包括從描述性文字生成具體物件與複雜形狀的 3D 模型。結果顯示,該方法能生成細節豐富、形狀合理且視角無關的 3D 數位物件,這些模型可被任意旋轉檢視、在不同光照條件下重光照,甚至與其他虛擬場景進行合成。
此外,DreamFusion 不只限於靜態物件建立,其創意空間廣泛,能涵蓋從動物、人物、家具、藝術雕塑到科幻造型,展示了良好的通用性與靈活性。實驗中表示,即使沒有調整或微調基礎的擴散模型也能達到優異結果,強調了方法的可行性與高效利用既有資源的優勢。
對 AI 領域的深遠影響
DreamFusion 在文字到 3D 生成領域具有劃時代意義。首先,它提出一種全新的思路:用預訓練的 2D 擴散模型指導 3D 領域的生成問題,成功打破數據缺乏的瓶頸,為 3D 創作開闢了新道路。這不僅能促成元宇宙(metaverse)、虛擬實境(VR)、擴增實境(AR)等應用中更豐富、快捷的內容創建流程,也推動了多模態學習的研究。
進一步說明,DreamFusion 展現了「跨模態利用先驗知識」的強大潛力,映射出未來 AI 系統整合不同領域預訓練模型的趨勢。開發者與研究人員因而能夠用較少訓練成本,卻獲得更高質量、更具創造力的 3D 視覺資產,進一步促使 AI 被深度應用於設計、娛樂、教育、製造等多重行業。
綜上,DreamFusion 不但輔助理解文字到空間的複雜映射,也為神經輻射場在新一代生成式模型中的應用鋪路,更重要是揭示了利用強大 2D 擴散模型來彌補 3D 欠缺數據的有效策略。這項工作不僅為 AI 生成技術增添極具價值的理論依據與技術棧,也為未來跨領域融合的研究與應用樹立了典範。
論文資訊
📄 DreamFusion: Text-to-3D using 2D Diffusion
👥 Poole, Jain, Barron, Mildenhall
🏆 ICLR 2023 · Outstanding Paper
🔗 arxiv.org/abs/2209.14988

沒有留言:
張貼留言