隨著生成式模型在影像和文本領域的迅速發展,如何從自然語言生成三維模型成為近年來極具挑戰性且備受關注的研究方向。傳統的3D建模需要繁複且高技術門檻的工作,若能藉由簡單文字指令自動生成高品質3D物件,將大幅降低創作者門檻,推動AR/VR、遊戲製作乃至虛擬人類等多種應用。ICLR 2023年Poole等人提出的《DreamFusion: Text-to-3D using 2D Diffusion》獲得Outstanding Paper獎,突破性地將強大的2D擴散模型(diffusion)能力擴展至3D生成,開創文字直接生成逼真3D模型的新紀元。
研究背景與動機
在生成模型方面,近年來基於擴散過程的2D圖像生成技術,如Google的Imagen和OpenAI的DALL·E 2,展示了驚人的文字引導下影像生成能力,能從簡單的語意描述生成高解析度、細節豐富且具藝術感的2D圖片。相較之下,3D物體生成因需要兼顧幾何一致性、多視角一致性,且資料收集與標註困難,一直處在相對落後的階段。
過往3D生成方法多集中在基於3D資料的直接訓練,或者利用三維神經渲染技術(NeRF)進行重建,然而受到數據稀缺與運算成本限制,難以支撐大規模多樣化的文本到3D生成。DreamFusion團隊察覺到,雖然直接訓練3D模型不易,但2D擴散模型已在圖像生成具備強大「理解與想像」能力,且可透過渲染器將3D物體從不同視角投影成2D圖像,因此提出一種巧妙方式:利用強大的2D擴散模型反向指導3D物體學習。
核心方法與創新
DreamFusion的核心創新在於「無需3D資料、直接用2D擴散模型輔助優化3D表示」的技術設計。具體來說,論文利用NeRF(Neural Radiance Fields)作為可微分的3D表示,將3D體積場透過光線追蹤渲染成多個視角的2D圖像。接著,這些渲染結果會被送入預先訓練好的文字到2D圖像擴散模型(如Google的Imagen),模型對輸出圖像與輸入文字進行匹配評分,計算「擴散模型給出的梯度訊號」。這個梯度訊號反向傳播回NeRF網絡,透過迭代優化3D表示,使得渲染出來的圖像逐漸符合文字描述。
方法中最關鍵的技術突破是使用「擴散後向傳播」(diffusion-based backpropagation)技術。雖然分布式擴散模型原本是設計來生成2D圖片,但本研究創造性地利用其內部的score function(分數函數),在3D空間中透過渲染投影,反向將語意梯度傳入NeRF參數中。這種跨域的利用方式,讓強大的文字圖像生成模型間接「教導」3D物體如何呈現,而無需直接用文字對3D模型做訓練。整個框架不依賴任何3D註釋數據,避免3D數據稀缺問題。
此外,為了進一步提升最終3D模型的視覺品質與多視角一致性,DreamFusion引入了基於CLIP的輔助評分,並設計多視角采樣策略保證渲染結果的穩定性與細節豐富表現。整體流程包含初始隨機NeRF建立、渲染、2D擴散反向引導、3D參數更新,循環往復直至收斂。
主要實驗結果
DreamFusion在多組文字提示下,成功生成多種三維物體,包括家具、動物、工具、甚至抽象藝術形式。所生成3D模型具備高細節層次和多角度一致性,不僅在視覺上方可直接應用於AR/VR場景,也可轉換為網格格式,便於後續工程開發。
論文中的質量評估以人類評分和CLIP相似度進行,結果顯示DreamFusion生成的3D物體整體質量超越先前基於3D GAN或NeRF的文字到3D方法。更重要的是,其生成過程中不需要3D地面真實標註資料,純粹仰賴2D擴散模型和渲染優化,突破了傳統3D生成資料限制。
在速度與效能方面,雖然NeRF優化仍需一定時間計算,但DreamFusion展現了較過往NeRF文本引導優化更快收斂及較佳品質的特性。多種文字提示重複生成也證明模型具有一定程度的多樣化和泛化能力。
對 AI 領域的深遠影響
DreamFusion提出了一條嶄新的跨維度生成框架:藉由強大的2D擴散模型作為橋梁,實現了從文字到3D的生成任務,不僅提升了3D建模的可及性,也擴展了擴散模型的應用範圍。此工作彰顯了在缺乏大量3D註釋數據時,如何利用已存在的2D豐富資料及模型知識創造出高品質3D資產的策略。
從技術觀點看,DreamFusion拓展了NeRF的應用場景,顯示神經渲染可以結合其它大型預訓練模型,形成多模態、多維度的整合生成系統。這激發了後續工作在多視角、時空一致性、動畫生成及虛擬環境搭建等領域的更深探究。
同時,此方法激勵了文本到3D生成的民主化,未來只需簡短文字或語音描述,即可輕鬆創建專業級3D資產,將對遊戲開發、電影製作、Metaverse創作及教育領域產生革命性影響。雖然現階段仍有運算成本與真實感表現上的挑戰,但DreamFusion為3D AI生成奠定了堅實基礎。
綜上,DreamFusion是連結2D擴散生成與3D形狀優化的里程碑作品,以創新理念有效解決了數據稀缺的瓶頸,示範了AI模型跨模態融合的新方向,毫無疑問是文本驅動3D生成領域的重大突破與典範。
論文資訊
📄 DreamFusion: Text-to-3D using 2D Diffusion
👥 Poole, Jain, Barron, Mildenhall
🏆 ICLR 2023 · Outstanding Paper
🔗 arxiv.org/abs/2209.14988

沒有留言:
張貼留言