利用NeRF 谷歌研究通過簡單文本生成3D圖像

2022年10月10日 19:29:23 來源：映維網(wǎng)

　　對于谷歌日前介紹的Dreamfusion，只需輸入簡單的文本提示，這個(gè)利用2D數(shù)據(jù)訓(xùn)練出來的模型可以為你生成相應(yīng)的3D圖像。

　　Dreamfusion是生成性3D人工智能系統(tǒng)Dream Fields的進(jìn)化。對于Dream Fields，它利用了NeRF生成3D視圖的能力，并將其與CLIP評估圖像內(nèi)容的能力相結(jié)合。文本輸入后，未經(jīng)訓(xùn)練的NeRF模型從單個(gè)視點(diǎn)生成隨機(jī)視圖，并通過CLIP進(jìn)行評估。反饋用作NeRF模型的校正信號(hào)。這個(gè)過程從不同的視角重復(fù)多達(dá)20000次，直到生成與文本描述匹配的三維模型。

　　DreamFusion與DreamFields之間最大的不同是計(jì)算損失的方法。最新的DreamFusion采用了谷歌預(yù)訓(xùn)練的2D文本圖像擴(kuò)散模型Imagen來計(jì)算損失。

　　研究人員引入一個(gè)新的圖像采樣方法SDS，它是在參數(shù)空間而不是像素空間中進(jìn)行采樣。在生成圖像的過程中，里面的參數(shù)會(huì)經(jīng)過優(yōu)化，成為擴(kuò)散模型的一個(gè)訓(xùn)練樣本，而經(jīng)過擴(kuò)散模型訓(xùn)練之后的參數(shù)具備多尺度特性，更利于后續(xù)的圖像生成。

　　另外，擴(kuò)散模型不需要反向傳播，這是因?yàn)閿U(kuò)散模型能夠直接預(yù)測更新的方向。所以，三維生成不需要三維數(shù)據(jù)進(jìn)行培訓(xùn)。相反，Dreamfusion使用Imagen從不同角度生成的對象的2D圖像學(xué)習(xí)3D表示。

　　與DreamFields相比，Dreamfusion可以基于文本輸入創(chuàng)建更高質(zhì)量、深度和法線的可重照明3D對象。同時(shí)，使用Dreamfusion創(chuàng)建的多個(gè)3D模型可以合并到一個(gè)場景中。

　　谷歌研究團(tuán)隊(duì)寫道：“我們的方法不需要3D訓(xùn)練數(shù)據(jù)，同時(shí)不需要對圖像擴(kuò)散模型進(jìn)行修改，這證明了預(yù)處理圖像擴(kuò)散模型的有效性。”

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信