使用非結構化單視圖圖像的大規(guī)模數(shù)據(jù)集對3D感知生成對抗網(wǎng)絡(GAN)進行無監(jiān)督學習是一個新興的研究領域。最近,業(yè)界證明這種3D GAN能夠?qū)崿F(xiàn)照片真實感和多視圖一致的人臉輻射場生成代。
但所述方法尚未證明對身體有效。一個原因是,由于身體的關節(jié)鉸接與面部相比多樣性明顯更高,所以學習身體姿勢分布更具挑戰(zhàn)性。然而,照片真實感人類的生成3D模型在視覺效果、計算機視覺、虛擬現(xiàn)實/增強現(xiàn)實等廣泛應用中具有重要的實用價值。在相關場景中,生成的人體必須可編輯,從而支持交互式應用程序。
現(xiàn)有的3D GAN并不一定支持。盡管線性混合蒙皮的變體已可用于闡明單個場景的輻射場,但尚不清楚如何將這種變形方法有效地應用于生成模型。
在名為《Generative Neural Articulated Radiance Fields》的研究中,由美國斯坦福大學,荷蘭代爾夫特理工大學,以及加拿大多倫多大學組成的團隊提出了一個生成神經(jīng)鉸接輻射場GNARF。
研究人員為針對上挑戰(zhàn)提出了自己解決方案。首先,他們演示了在包含單視圖圖像的數(shù)據(jù)集上以無監(jiān)督方式訓練的GAN生成高質(zhì)量3D人體。為此,團隊采用了對于訓練和渲染輻射場非常有效,同時與傳統(tǒng)的基于2D CNN的生成器兼容的三平面特征表示。
其次,作為GAN訓練過程的一環(huán),團隊通過引入顯式輻射場變形步驟來解決生成輻射場的可編輯性。所述步驟確保生成器以標準身體姿勢合成人的輻射場,然后根據(jù)訓練數(shù)據(jù)的身體姿勢分布顯式扭曲輻射場。實驗表明,這種新方法可以生成高質(zhì)量、可編輯、多視圖一致的人體,并且可以應用于編輯人臉,從而提高了現(xiàn)有生成模型的可控性。
如視頻所示,GNARF能夠生成不同的3D人體,并通過參數(shù)化模型(如SMPL骨架和網(wǎng)格)對人體進行動畫化。
GNARF是一種新的通用框架,用于訓練具有參數(shù)化模板網(wǎng)格的可變形對象3D感知GAN,例如人體和面部。它以生成的神經(jīng)輻射場的有效三平面特征表示作為基礎,但另外應用了顯式變形,這減輕了生成器學習復雜關節(jié)分布的要求。因此,生成器自動學習以規(guī)范姿勢生成對象的輻射場,然后顯式扭曲輻射場,從而以完全可控和可解釋的方式生成目標身體姿勢和面部表情。
對于如何以直觀的方式指定變形場,目前社區(qū)存在一系列可能的選擇,線性混合蒙皮。盡管蒙皮在人體關節(jié)中非常受歡迎,但它無法解釋由于面部表情變化而產(chǎn)生的細微變形。另一種選擇是使用特定于對象的模板網(wǎng)格作為框架,并使用均值坐標(MVC)對整個體三維應用基于框架的變形。然而,在全分辨率網(wǎng)格評估MVC的高計算成本對于GAN訓練而言難以接受,更重要的是,當模板網(wǎng)格(意外)包括自交集時,這種方法通常會導致嚴重的偽影。
為了緩解所述問題,團隊使用了一種直觀的曲面驅(qū)動變形方法:曲面場(SF)。所述方法只需要具有對應關系的規(guī)范模板網(wǎng)格和目標模板網(wǎng)格,而它們很容易用于面部和身體。反過來,模板形狀可以使用骨架、手動編輯或使用可以在其他人的視頻中檢測到的關鍵點或Landmark來驅(qū)動。
所以,SF方法通常足以應用于不同的身體部位,并且可以通過多種方式直觀地進行編輯,從而實現(xiàn)這類體三維模型的精確體三維變形。
3D GAN框架管道概述如圖2所示。StyleGAN生成器、三平面表示、身體繪制、基于CNN的圖像超分辨率模塊和(雙重)分辨等幾個組件直接從EG3D框架中采用。然而,GNARF不是用目標身體姿勢或面部表情直接生成輻射場,而是在以規(guī)范姿勢生成輻射場,然后應用上述變形場來扭曲特征體三維。
研究人員同時移除了生成器的姿勢條件,在鑒別器中僅使用camera姿勢和身體姿勢條件。這就消除了生成器在規(guī)范輻射場生成中結合關于最終視圖或姿勢的任何knowledge的能力,確保生成的結果將具有強大的動畫效果,而不僅僅是訓練時渲染的圖像。
因此,生成器僅依賴于輸入StyleGAN2生成器的latent代碼控制identity。這種架構選擇利用最先進的2D生成模型架構來生成三平面3D表示。能夠訪問camera和身體姿勢的鑒別器確保GAN學習生成精確到目標姿勢的扭曲,而不僅僅是處于正確的分布中。最后,研究人員采用輻射場渲染策略,沿著擴展模板網(wǎng)格內(nèi)的每條光線進行采樣。這確保了在輻射場的區(qū)域中以最詳細的方式獲取積分采樣,而不是在空白區(qū)域中獲取,從而提高了生成結果的質(zhì)量并加快了訓練。
在實驗中,團隊首先通過對單個動態(tài)全身場景的單個表示進行過擬合來評估所提出的變形場。然后,將變形方法應用于兩個身體(AIST++[和SURREAL)和面部(FFHQ)的GAN訓練管道中。
AIST++是一個由10.1M張圖像組成的大型數(shù)據(jù)集,捕捉了30名舞蹈演員的舞蹈動作。每一幀都配有ground truth攝像頭和SMPL身體模型;SURREAL包含600萬張使用SMPL身體模型創(chuàng)建的合成人類圖像;FFHQ則是從Flickr收集的人臉高分辨率圖像的大型數(shù)據(jù)集。
研究人員將所提出的曲面驅(qū)動變形方法SF與兩種備選方法MVC和蒙皮進行了比較。MVC要求針對每個采樣點的目標網(wǎng)格MD的每個頂點計算一組權重。然后,通過將標準網(wǎng)格MC的頂點與計算的權重線性組合,將采樣點變形為標準姿勢。
在蒙皮中,采樣點通過點到線段距離測量的最近骨骼的剛性變換變形為規(guī)范姿勢。團隊發(fā)現(xiàn),如果起始姿勢使兩個拓撲上相距較遠的身體部位(例如手和骨盆)接近幾何位置,這種簡化的蒙皮定義可以有效地避免它們之間的混合。他們從AIST++數(shù)據(jù)集中選擇多視圖視頻序列,并使用視圖和幀的子集來優(yōu)化規(guī)范姿勢中的三平面特征。然后,評估扭曲到訓練視圖和姿勢中的估計輻射場的質(zhì)量,并且評估扭曲到保持的測試視圖和姿勢。研究人員對三平面架構進行了一定的修改,以便減少過擬合。
為了加快MVC和SF計算,他們在Open3D庫中使用Quadric Error Metric Decimation抽取源和變形的SMPL網(wǎng)格,同時追蹤源和變形網(wǎng)格之間的對應關系。盡管如此,計算每個變形姿勢的MVC對于在線訓練而言依然成本高昂(每個示例3.7秒)。因此,研究人員在固定的網(wǎng)格預計算訓練和測試身體姿勢的變形,并使用三線性插值檢索任意采樣點的變形。
如表1所示,SF方法在訓練和測試圖像方面都優(yōu)于其他方法。MVC表現(xiàn)最差,部分原因是網(wǎng)格近似,這在實踐中至關重要。蒙皮方法在圖像質(zhì)量方面與SF相當,但速度慢3倍。另外,蒙皮無法充分變形細微的面部表情。因此,SF方法最靈活,它與不同的人體部位兼容,同時提供了計算和內(nèi)存效率。
接下來,他們將SF方法作為GNARF生成的特征體三維的變形方法。所述方法在捕獲的AIST++和合成SURREAL數(shù)據(jù)集上進行了訓練和評估。對于這兩個數(shù)據(jù)集,團隊的方法生成了高質(zhì)量的多視圖一致人體,不同姿勢與目標姿勢密切匹配。
由于GNARF是學習表示身體的輻射場的生成模型的一種方法,團隊提出了一種基線,使用未經(jīng)變形訓練的原始EG3D來生成特征體(不在標準姿勢中),然后使用所提出的SF變形方法在推斷期間將其扭曲為各種目標姿勢。
沒有特征體積變形,生成器被迫學習在latent空間中建模identity和姿勢。因此,三平面特征不再以一致的標準姿勢表示人體,而是與數(shù)據(jù)集中姿勢的分布相匹配。生成的身體的動畫與提出的方法類似,除了生成的(任意姿勢的)人體用作規(guī)范姿勢之外,研究人員通過應用人體形狀重建方法SPIN獲得了SMPL網(wǎng)格。
如上面的視頻所示,與EG3D動畫基線相比,團隊的方法產(chǎn)生了明顯更好的動畫效果。
另外,與不支持動畫的EG3D基線相比,團隊的動畫方法可以生成更好的圖像。這可能是由于GNARF允許生成器專注于生成規(guī)范姿勢中的特定identity,而不是學習組合latent空間中的identity和復雜姿勢分布。
在圖3中,團隊的方法產(chǎn)生了比基線產(chǎn)生的結果更好的定性結果。使用重新扭曲的EG3D的基線結果顯著降低,因為很難從生成的圖像中準確估計SMPL網(wǎng)格。另外,存在于camera視圖外的輻射場中且在傳統(tǒng)渲染圖像中沒有差異的浮動偽影在扭曲后變得可見。在最上方的圖1中,團隊展示了這一方法可以生成具有不同identity的標準姿勢身體。同時,通過改變SMPL參數(shù),可以將每個輻射場驅(qū)動到所需的目標姿態(tài),并在任意新穎的視圖中進行渲染。
GNARF同時可以應用于3D人臉,并用于生成可設置動畫的模型。實驗表明,變形支持參數(shù)化模型驅(qū)動的表情編輯。
當然,團隊坦誠這一方法并非沒有限制。例如,生成身體中的細節(jié)級別相對較低。部分原因是由于SURREAL和AIST++數(shù)據(jù)集中訓練數(shù)據(jù)的分辨率有限,但其他原因包括三平面表示為任何一個身體部位提供的分辨率有限。所以,未來團隊探索的一個有趣途徑包括探索人體的自適應輻射場分辨率,將更多分辨率分配給突出部分。另外,面部和頭發(fā)中的細節(jié)無法通過紋理生成方法來處理。
值得一提的是,團隊提出了道德考慮,因為GAN可能會被不法分子用于生成真實人物的編輯圖像。這種對圖像合成技術的濫用會構成社會威脅。
相關論文:Generative Neural Articulated Radiance Fields
概括來說,團隊提出了一個可用于生成人體的可編輯輻射場的3D感知GAN框架。這一框架為關節(jié)對象(包括身體和頭部)引入了一種有效的神經(jīng)表示,它將最近提出的三平面特征體三維表示與由模板形狀引導的顯式特征體三維變形相結合。在實驗中,研究人員使用了SURREAL和AIST++數(shù)據(jù)集以及使用FFHQ數(shù)據(jù)集的人臉,并展示了高質(zhì)量的生成結果。
團隊認為,這一研究在朝著鉸接式人體和面部的真實感3D感知圖像合成邁出了重要的一步。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。