從文本生成3D圖像英偉達(dá)提出比谷歌更優(yōu)解決方案Magic3D

2022年11月22日 13:41:49 來源：映維網(wǎng)

　　谷歌早前曾介紹了一個可以通過文本生成3D圖像的AI模型Dreamfusion。其中，只需輸入簡單的文本提示，這個利用2D數(shù)據(jù)訓(xùn)練出來的模型可以為你生成相應(yīng)的3D圖像。

　　但英偉達(dá)的研究人員認(rèn)為，盡管谷歌DreamFusion展示了預(yù)訓(xùn)練的文本到圖像擴散模型在優(yōu)化神經(jīng)輻射場(NeRF)方面的實用性，并取得了顯著的文本到3D合成結(jié)果，但所述方法存在兩個固有的局限性：

　　NeRF的優(yōu)化極其緩慢;

　　NeRF的低分辨率圖像空間監(jiān)控導(dǎo)致處理時間長，并且只能生成低質(zhì)量的3D模型。

　　所以，英偉達(dá)提出了一個全新的解決方案Magic3D，利用兩階段優(yōu)化框架來解決相關(guān)限制。最終，團隊希望這可以幫助實現(xiàn)3D合成的普及。

　　與Dreamfusion一樣，Magic3D的核心依賴于一種根據(jù)文本從不同角度創(chuàng)建圖像的圖像生成模型。英偉達(dá)的研究團隊使用的是圖像模型eDiffi，而谷歌則依賴Imagen。

　　對于團隊提出的兩階段優(yōu)化框架，他們首先使用低分辨率擴散先驗獲得粗略模型，并使用稀疏的3D hash grid structure進行加速。使用粗糙表示作為初始化，研究人員進一步通過與高分辨率latent擴散模型交互的高效可微渲染器來優(yōu)化紋理化的3D網(wǎng)格模型。

　　這種方法的優(yōu)勢在于，生成型AI模型不必使用稀缺的3D模型進行訓(xùn)練。與Nvidia免費提供的文本到3D模型Get3D不同，Magic3D同時可以從不同類別生成眾多3D模型，無需額外訓(xùn)練。

　　英偉達(dá)表示，實驗結(jié)果表明，Magic3D可以在40分鐘內(nèi)創(chuàng)建高質(zhì)量的3D網(wǎng)格模型，這比DreamFusion快2倍，同時分辨率更高。這家公司進一步指出：“用戶研究則顯示，61.7%的評分者更喜歡我們的方法而不是DreamFusion。”

　　另外，Magic3D可以執(zhí)行基于提示的3D網(wǎng)格編輯。給定低分辨率3D模型和基本提示，研究人員可以更改文本以更改生成的模型。同時，團隊演示了在數(shù)個迭代中保持相同的主題(通常稱為連貫性)，并將2D圖像的風(fēng)格(如立體派繪畫)應(yīng)用于3D模型。

　　英偉達(dá)的研究人員評價道：“結(jié)合圖像條件生成功能，我們?yōu)橛脩籼峁┝丝刂?D合成的新方法，并為各種創(chuàng)意應(yīng)用開辟了新途徑。”

　　從文本生成3D的能力感覺像是當(dāng)今擴散模型的一種自然進化。在對大量數(shù)據(jù)進行密集訓(xùn)練后，相關(guān)模型可以使用神經(jīng)網(wǎng)絡(luò)合成新內(nèi)容。僅在2022年，我們就已經(jīng)看到了DALL-E和Stable Diffusion等功能強大的文本到圖像模型，以及谷歌的文本到3D模型DreamFusion等等。

　　對于Magic3D，它將允許任何人在不需要特殊訓(xùn)練的情況下創(chuàng)建3D模型。盡管團隊目前依然在優(yōu)化改善模型，但隨著技術(shù)的發(fā)展和成熟，相信這將能加快普及3D合成，并促進游戲和VR行業(yè)的發(fā)展。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信