浙大研究者提出UrbanGIRAFFE，解決城市場景的可控3D感知圖像合成

2023年11月20日 15:20:04 來源：站長之家

　　浙江大學的研究人員最近提出了一種名為UrbanGIRAFFE的創(chuàng)新方法，用于解決具有挑戰(zhàn)性的城市場景的可控3D感知圖像合成問題。該方法通過引入可控的相機姿勢和場景內(nèi)容，以實現(xiàn)逼真的圖像合成，特別是在處理具有挑戰(zhàn)性的城市環(huán)境時。

　　UrbanGIRAFFE采用了一種組合和可控的策略，利用了粗糙的3D全景先驗，包括無法計數(shù)的物體和可計數(shù)的對象的布局分布。該方法將場景分解為物體、物體和天空，從而實現(xiàn)對場景的多樣控制，如大范圍相機移動、物體編輯和物體操作。

　　在過去的條件圖像合成方法中，以生成逼真圖像為目標的方法已取得了顯著進展，特別是那些利用生成對抗網(wǎng)絡(luò)(GANs)的方法。然而，現(xiàn)有方法主要限于以對象為中心的場景，并且在處理復(fù)雜且不對齊的城市場景時存在局限性。UrbanGIRAFFE則專注于城市場景，通過引入3D感知的生成模型，克服了這些限制，為大范圍相機移動、物體編輯和物體操作提供了多樣的可控性。

　　UrbanGIRAFFE的創(chuàng)新之處在于將城市場景巧妙地分解為無法計數(shù)的物體、可計數(shù)的對象和天空，利用先驗分布來理清復(fù)雜的城市環(huán)境。該模型包括一個條件物體生成器，利用語義體素網(wǎng)格作為物體先驗，以集成粗糙的語義和幾何信息。通過在混亂的場景中學習對象生成器的對象布局先驗，模型在對抗性和重構(gòu)損失的端到端訓練中得以優(yōu)化，利用射線-體素和射線-盒交叉策略來優(yōu)化采樣位置，減少所需采樣點的數(shù)量。

　　在全面的評估中，UrbanGIRAFFE方法在合成和真實數(shù)據(jù)集上超越了各種2D和3D基線，展示了出色的可控性和保真度。在KITTI-360數(shù)據(jù)集上進行的定性評估顯示，UrbanGIRAFFE在背景建模方面優(yōu)于GIRAFFE，實現(xiàn)了增強的物體編輯和相機視角控制。在KITTI-360上進行的剖析研究證實了UrbanGIRAFFE的架構(gòu)組件的有效性，包括重構(gòu)損失、對象判別器和創(chuàng)新的對象建模。在推斷期間采用移動平均模型進一步提高了生成圖像的質(zhì)量。

　　UrbanGIRAFFE的未來工作包括引入語義體素生成器，以進行新穎場景采樣，并通過光-環(huán)境顏色解纏來探索光照控制。文章強調(diào)了重構(gòu)損失的重要性，以保持保真度并產(chǎn)生多樣的結(jié)果，尤其是對于不經(jīng)常遇到的語義類別。

　　該研究展示了UrbanGIRAFFE在處理具有挑戰(zhàn)性的城市場景的可控3D感知圖像合成問題方面的卓越成就，實現(xiàn)了在相機視角操作、語義布局和物體交互方面的卓越多功能性。通過利用3D全景先驗，該模型有效地將場景分解為物體、物體和天空，促進了組合生成建模。未來的研究方向包括整合語義體素生成器以進行新穎場景采樣，并通過光-環(huán)境顏色解纏來探索光照控制。 UrbanGIRAFFE通過在合成和實際數(shù)據(jù)集上進行全面評估，展示了在可控性和保真度方面超越各種2D和3D基線的出色性能。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信