隨著人工智慧技術的快速發展,文本轉影像(Text-to-Image)合成在過去數年取得突破性進展,尤其是擴散模型(Diffusion Models)在巨量標註影像文字資料上的訓練,使得生成多樣且高品質的2D影像成為可能。然而,將這種成功延伸至3D物體生成卻面臨諸多困難,主要在於高品質3D標註資料稀缺、以及缺乏有效的3D噪聲去除架構。
本文《DreamFusion: Text-to-3D using 2D Diffusion》,由Poole、Jain、Barron與Mildenhall等人發表於 ICLR 2023,獲得Outstanding Paper獎項。該工作提出了以已有強大2D文本到影像擴散模型為基礎,無需直接使用3D標註資料,即可實現文本驅動3D物體生成的創新方法。此研究不僅擴展了擴散模型的應用範疇,也開啟了3D生成模型利用2D先驗知識的全新思路,對未來3D相關AI研究具有深遠影響。
研究背景與動機
傳統的3D生成方法往往依賴大量3D掃描或渲染資料進行訓練。相比之下,目前廣泛使用的2D文本影像合成,如DALL·E、Imagen或Latent Diffusion Models (LDM),皆是基於數十億量級的映射文字與影像對訓練而成。直接將此類技術延伸至3D,必須面對難以取得大規模標註3D資料集,以及3D資料本身維度高,噪聲去除的運算量極大,模組設計複雜等挑戰。
研究團隊因此提出一種折衷方案:不直接訓練3D擴散模型,而是利用現有預訓練的2D文本-圖像擴散模型作為「先驗(porior)」,引導3D模型的生成及優化。這樣的方法避免了建構大型3D資料集的瓶頸,同時能借助高度成熟的2D擴散模組,達到以文本描述來生成3D模型的目標。
核心方法與技術創新
DreamFusion的核心在於設計了一種基於概率密度蒸餾(probability density distillation)的損失函數,將2D擴散模型作為引導優化的「黑盒先驗」,指導一個參數化3D生成模型的學習。具體而言,本文採用Neural Radiance Field(NeRF)作為3D表示形式。NeRF可透過體積渲染技術輸出視角可變的2D影像。
方法流程包括幾個關鍵步驟:
- 隨機初始化3D模型:從無任何先驗開始,訓練一個NeRF模型。
- DeepDream 式優化:從隨機視角渲染NeRF生成的2D影像,紫用預訓練的2D擴散模型計算該影像在指定文字描述下的損失。這裡採用的損失基於概率密度蒸餾,簡單說是讓NeRF渲染的影像符合擴散模型對目標文字所學得的影像概率分佈。
- 利用梯度下降優化NeRF:反向傳播損失信號,更新NeRF參數,使其生成的所有視角影像都與文本描述一致。
這套方法的重要創新是巧妙將2D擴散模型的強大視覺先驗轉化為3D視角一致性的優化目標,且整個過程不需要對2D擴散模型本身架構做任何改動。此外,也避免直接操作3D擴散模型的繁複計算,降低訓練成本。
主要實驗結果
作者在多組文本描述上測試DreamFusion,生成的3D模型展現令人驚豔的細節及多角度一致性。實驗亮點包括:
- 多樣的生成物件:從日常物品、奇幻角色到抽象藝術場景,都能根據文字指令轉換成完整且連續的3D模型。
- 無需3D標註資料:全程依賴2D擴散模型先驗與NeRF的體積渲染,省略了大量3D掃描或建模資料需求。
- 靈活操作:生成的3D物體可任意旋轉、光源重照明,甚至置入真實世界或虛擬環境中使用。
- 定量與定性評估:作者實驗比較顯示,在視角連貫性、細節完整性及文字契合度上,DreamFusion優於過去直接利用3D生成方式或基於CLIP的3D調整方法。
對 AI 領域的深遠影響
DreamFusion的提出,從技術路徑上打破了3D生成面臨的數據瓶頸與模型設計困境,提供了一條有效利用2D預訓練模型進行3D創作的新視角。此路徑具有以下深遠影響:
- 拓展擴散模型應用範圍:過去,擴散模型多用於2D影像生成,DreamFusion示範了透過巧妙的優化策略,將2D擴散模型作為先驗,推動3D內容創造。
- 促進多模態跨維度生成研究:文本與影像的成功結合持續往更高維度推進,促使未來研究探索如何融合更多複雜表示如3D、動畫或多感官輸入,有望催生更豐富的AI生成系統。
- 減少3D資料需求,降低建模門檻:建構或收集標註3D資料一直是阻礙3D AI廣泛應用的瓶頸,DreamFusion以不需要3D樣本的方式達成模型訓練,開啟低成本3D生成的新時代。
- 推動NeRF技術普及與應用創新:結合NeRF與擴散模型的工作,提升了NeRF在現實場景重現和虛擬內容創建中的實用性和可生成性。
總結來說,DreamFusion不僅在技術上提出了創新的3D生成框架,更在AI生成領域擴增了方法論,具備指導後續多維度生成技術與應用的重要參考價值。對於工程師與研究生而言,深入理解DreamFusion的方法與脈絡,有助於把握AI生成技術最新進展,並啟發跨領域融合創新的研究思路。
論文資訊
📄 DreamFusion: Text-to-3D using 2D Diffusion
👥 Poole, Jain, Barron, Mildenhall
🏆 ICLR 2023 · Outstanding Paper
🔗 arxiv.org/abs/2209.14988

沒有留言:
張貼留言