英偉達團隊再次于自己的老本行大發(fā)光彩。近日發(fā)布的Edify3D支持用戶從文本提示或者圖像來直接生成4K級別的3D實體與場景,這再次為游戲與影視設(shè)計行業(yè)注入了新的AI活力。
不滿足于只是自己在紙上照著自己的想法去寫寫畫畫,但是又沒精力去學(xué)習(xí)專業(yè)的3D建模技能,怎么破?
你有曾想過,僅僅通過文字描述自己的想象,就可以將其創(chuàng)造為分辨率高達4K的實體3D模型嗎?
現(xiàn)在,你可以通過Nvidia發(fā)布的Edify3D實現(xiàn)你的奇思妙想了!只要你具有足夠好的創(chuàng)意,甚至可以利用Edify3D來創(chuàng)造出經(jīng)典的游戲、電影的3D模型實體,例如有趣的小黃人。
請看官方視頻展示,用戶只是進行文字描述,Edify3D就可以即時生成高清的3D布景、頭骨、烏龜?shù)?D實體。
由于創(chuàng)建3D內(nèi)容需要相關(guān)的專業(yè)技能和專業(yè)知識,這使得此類資產(chǎn)比圖像和視頻等其他視覺媒體稀缺得多。這種稀缺性引出一個關(guān)鍵的研究問題,即如何設(shè)計可擴展的模型以有效地從這些數(shù)據(jù)中生成高質(zhì)量的3D資產(chǎn)。
Edify3D可在2分鐘內(nèi)根據(jù)文本描述或者前景圖像生成高質(zhì)量的3D資產(chǎn),其提供詳細的幾何圖形、清晰的形狀拓撲、井然有序的UV映射、高達4K分辨率的紋理以及基于物理的材質(zhì)渲染。與其他文本到3D方法相比,Edify3D始終如一地生成卓越的3D形狀和紋理,在效率和可擴展性方面都有顯著改進。
Edify3D的流程
Edify3D的流程為:在給定對于3D實體對象的文字描述后,多視圖擴散模型會合成描述對象的RGB外觀。然后,生成的多視圖RGB圖像被用作使用多視圖ControlNet合成表面法線的條件。接下來,重建模型將多視圖RGB和正常圖像作為輸入,并使用一組潛在標記預(yù)測神經(jīng)3D表示。然后進行等值面提取和隨后的網(wǎng)格后處理,以獲得網(wǎng)格幾何。放大的ControlNet用于提高紋理分辨率,對網(wǎng)格光柵化進行調(diào)節(jié)以生成高分辨率多視圖RGB圖像,然后將其反向投影到紋理貼圖上。
多視圖擴散模型
創(chuàng)建多視圖圖像的過程類似于視頻生成的設(shè)計的我們通過使用相機姿勢調(diào)節(jié)文本到圖像模型,將它們微調(diào)為姿勢感知多視圖擴散模型。這些模型將文本提示和攝像機姿勢作為輸入,并從不同的視點合成對象的外觀。
跨視圖注意力
研究者在模型訓(xùn)練時,訓(xùn)練了以下模型:
基于多視圖擴散模型,該模型根據(jù)輸入文本提示合成RGB外觀以及相機姿態(tài)。
多視圖ControlNet模型,該模型基于多視圖RGB合成和文本提示來合成物體的表面法線。
多視圖上采樣控制網(wǎng)絡(luò),該網(wǎng)絡(luò)在給定3D網(wǎng)格的柵格化紋理和表面法線條件下,將多視圖RGB圖像超分辨率提升至更高分辨率。
研究者使用Edify Image模型作為基礎(chǔ)擴散模型架構(gòu),結(jié)合一個具有27億參數(shù)的U-Net,在像素空間中進行擴散操作。ControlNet編碼器使用U-Net的權(quán)重進行初始化。他們通過一種新機制擴展了原始文本到圖像擴散模型中的自注意力層,以關(guān)注不同視圖,從而使得其作為具有相同權(quán)重的視頻擴散模型。通過一個輕量級MLP對相機姿態(tài)(旋轉(zhuǎn)和平移)進行編碼,隨后將這些編碼作為時間嵌入添加到視頻擴散模型架構(gòu)中。
研究者在3D對象的渲染圖上微調(diào)文本到圖像模型。在訓(xùn)練過程中,他們同時使用自然2D圖像以及隨機數(shù)量(1、4和8)的視圖的3D對象渲染圖進行聯(lián)合訓(xùn)練。使用
參數(shù)對損失進行訓(xùn)練,與基礎(chǔ)模型訓(xùn)練中使用的方法一致。對于多視圖ControlNets,首先使用多視圖表面法線圖像訓(xùn)練基礎(chǔ)模型。隨后,我們添加一個以RGB圖像為輸入的ControlNet編碼器,并在凍結(jié)基模型的同時對其進行訓(xùn)練。
關(guān)于視圖數(shù)量擴展的消融研究
在訓(xùn)練過程中,研究者會對每個訓(xùn)練對象抽取1、4或8個視圖,為每個視圖分配不同的抽樣比例。雖然可以在推理過程中采樣任意數(shù)量的視圖,以使用不同數(shù)量的視圖進行訓(xùn)練,但最好還是將訓(xùn)練視圖與推理過程中預(yù)期的視圖數(shù)量相匹配。這有助于最大限度地縮小訓(xùn)練和推理性能之間的差距。
研究者對比了兩個模型:一個主要在4視圖圖像上訓(xùn)練,另一個在8視圖圖像上訓(xùn)練,并在相同視角采樣10視圖圖像。如下圖所示,與使用4視圖圖像訓(xùn)練的模型相比,使用8視圖圖像訓(xùn)練的模型生成的圖像更自然,各視圖之間的多視圖一致性更好。
使用四個視圖的圖像進行訓(xùn)練的模型
使用八個視圖的圖像進行訓(xùn)練的模型
重建模型
從圖像觀測中提取3D結(jié)構(gòu)通常被稱為攝影測量,該技術(shù)已被廣泛應(yīng)用于許多3D重建任務(wù)中。研究者使用基于Transformer的重建模型從多視圖圖像中生成3D網(wǎng)格幾何形狀、紋理圖和材質(zhì)圖。他們發(fā)現(xiàn),基于Transformer的模型對未見過的物體圖像表現(xiàn)出強大的泛化能力,包括從2D多視角擴散模型合成的輸出。
研究者使用僅解碼器的Transformer模型,以三平面作為潛在3D表示。輸入的RGB和法線圖像作為重建模型的條件,在三平面標記和輸入條件之間應(yīng)用交叉注意力層。三平面標記通過MLP處理以預(yù)測用于簽名距離函數(shù)(SDF)和PBR屬性的神經(jīng)網(wǎng)絡(luò)場,用于基于SDF的體積渲染。神經(jīng)網(wǎng)絡(luò)SDF通過等值面提取轉(zhuǎn)換為3D網(wǎng)格。PBR屬性通過UV映射烘焙到紋理和材質(zhì)圖中,包括漫反射顏色和如粗糙度和金屬通道等材質(zhì)屬性。
研究團隊使用大規(guī)模圖像和3D資產(chǎn)數(shù)據(jù)來訓(xùn)練重建模型。該模型通過基于SDF的體積渲染在深度、法線、掩碼、反射率和材質(zhì)通道上進行監(jiān)督,輸出由藝術(shù)家生成的網(wǎng)格渲染。由于表面法線計算相對昂貴,所以需要僅在表面計算法線并對真實情況進行監(jiān)督。
他們發(fā)現(xiàn)將SDF的不確定性與其對應(yīng)的渲染分辨率對齊可以提高最終輸出的視覺效果。此外,還需要在損失計算期間屏蔽物體邊緣以避免由混疊引起的噪聲樣本。為了平滑樣本間的噪聲梯度,他們對最終重建模型權(quán)重應(yīng)用了指數(shù)移動平均(EMA)。
重建模型方面的消融研究
研究者發(fā)現(xiàn),重建模型在恢復(fù)輸入視圖方面始終比新視圖更準確。該模型在視點數(shù)量方面具有良好的擴展性,即隨著提供更多信息,其性能得到提升。
輸入視圖數(shù)量的比較
對角線單元格表示輸入視圖與驗證視圖匹配的情況。這些對角線條目通常顯示每行的最佳結(jié)果,表明模型最準確地復(fù)制了輸入視圖。此外,隨著輸入視圖數(shù)量從4增加到16,結(jié)果持續(xù)改善。這表明重建模型從額外的輸入信息中受益,同時也證明了Edify3D的重建模型的可擴展性。
受模型隨視點數(shù)量擴展的啟發(fā),研究者進一步研究訓(xùn)練視點數(shù)量是否影響重建質(zhì)量。他們使用固定的8視圖設(shè)置評估模型,其中模型使用4、6、8和10個視圖進行訓(xùn)練。
結(jié)果如下圖(a)所示。盡管隨機采樣相機姿態(tài)在訓(xùn)練過程中提供了多樣化的視圖,但隨著同一訓(xùn)練步驟中訓(xùn)練視圖數(shù)量的增加,重建質(zhì)量仍在持續(xù)提高。圖(b)為標記數(shù)量的比較,它表明了在參數(shù)數(shù)量固定的情況下,模型需要更多的計算資源來處理更多的標記。
數(shù)據(jù)處理
Edify3D在非公開的大規(guī)模圖像、預(yù)渲染的多視圖圖像和3D形狀數(shù)據(jù)集的組合上進行訓(xùn)練。原始3D數(shù)據(jù)經(jīng)過幾個預(yù)處理步驟,以達到模型訓(xùn)練所需的品質(zhì)和格式。
數(shù)據(jù)處理流程的第一步是將所有三維圖形轉(zhuǎn)換為統(tǒng)一格式。首先對網(wǎng)格進行三角化處理,打包所有紋理文件,丟棄紋理或材質(zhì)已損壞的圖形,并將材質(zhì)轉(zhuǎn)換為金屬粗糙度格式。通過這一過程,用戶將得到一組三維圖形,可以按照其意圖進行渲染。
對于數(shù)據(jù)來講,必要的一環(huán)是進行數(shù)據(jù)質(zhì)量篩查。研究者從大型三維數(shù)據(jù)集中過濾掉非以物體為中心的數(shù)據(jù),且從多個視角渲染形狀,并使用分類器去除部分三維掃描、大型場景、形狀拼貼以及包含輔助結(jié)構(gòu)(如背景和地平面)的形狀。為確保質(zhì)量,這一過程通過多輪主動學(xué)習(xí)進行,由人類專家不斷制作具有挑戰(zhàn)性的示例來完善分類器。此外,他們還采用基于規(guī)則的過濾方法,去除明顯存在問題的形狀,如過于單薄或缺乏紋理的形狀。
為了將3D數(shù)據(jù)渲染成圖像以用于擴散和重建模型,研究團隊需要使用自研的光照追蹤器進行逼真渲染。他們采用多種采樣技術(shù)來處理相機參數(shù)。一半的圖像以固定的仰角和一致的內(nèi)參進行渲染,而剩余的圖像則使用隨機的相機姿態(tài)和內(nèi)參進行渲染。這種方法既適用于文本到3D 用例,也適用于圖像到3D 用例。
而對于3D實體的動作模擬來講,則需要將模型和真實的實體進行標準姿勢對齊。姿勢對齊是通過主動學(xué)習(xí)實現(xiàn)的。研究者通過手動策劃少量示例,來訓(xùn)練姿勢預(yù)測器,并在完整數(shù)據(jù)集中不斷利用困難示例來完成循環(huán)訓(xùn)練。
為了給3D形狀添加字幕,團隊為每個形狀渲染一張圖像,并使用視覺語言模型(VLM)為圖像生成長句和短句字幕。為了提高字幕的全面性,他們還向VLM提供形狀的元數(shù)據(jù)(例如標題、描述、分類樹)。
結(jié)果
團隊通過輸入文本提示以及渲染,使得生成的3D模型包含詳細的幾何形狀和清晰的紋理,具有良好分解的反射顏色,使其適用于各種下游編輯和渲染應(yīng)用。
文本到3D生成結(jié)果
對于圖像到3D生成,Edify3D不僅能夠準確恢復(fù)參考對象的底層3D結(jié)構(gòu),而且還能在輸入圖像中未直接觀察到的表面區(qū)域生成詳細的紋理。
圖像到3D生成結(jié)果
Edify3D生成的資產(chǎn)以四邊形網(wǎng)格的形式呈現(xiàn),拓撲結(jié)構(gòu)組織良好,如下圖所示。這些結(jié)構(gòu)化網(wǎng)格便于操作和精確調(diào)整,非常適合各種下游編輯任務(wù)和渲染應(yīng)用。這使它們能夠無縫集成到需要視覺真實性和靈活性的3D工作流程中。
四邊形網(wǎng)格拓撲
總的來說,Edify3D是一種針對高質(zhì)量3D資產(chǎn)生成的解決方案。其研究團隊致力于推進和發(fā)展3D資產(chǎn)自動化生成的新工具,使3D內(nèi)容創(chuàng)作更加易于。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。