浙江大學的研究人員最近提出了一種名為UrbanGIRAFFE的創(chuàng)新方法,用于解決具有挑戰(zhàn)性的城市場景的可控3D感知圖像合成問題。該方法通過引入可控的相機姿勢和場景內(nèi)容,以實現(xiàn)逼真的圖像合成,特別是在處理具有挑戰(zhàn)性的城市環(huán)境時。
UrbanGIRAFFE采用了一種組合和可控的策略,利用了粗糙的3D全景先驗,包括無法計數(shù)的物體和可計數(shù)的對象的布局分布。該方法將場景分解為物體、物體和天空,從而實現(xiàn)對場景的多樣控制,如大范圍相機移動、物體編輯和物體操作。
在過去的條件圖像合成方法中,以生成逼真圖像為目標的方法已取得了顯著進展,特別是那些利用生成對抗網(wǎng)絡(luò)(GANs)的方法。然而,現(xiàn)有方法主要限于以對象為中心的場景,并且在處理復(fù)雜且不對齊的城市場景時存在局限性。UrbanGIRAFFE則專注于城市場景,通過引入3D感知的生成模型,克服了這些限制,為大范圍相機移動、物體編輯和物體操作提供了多樣的可控性。
UrbanGIRAFFE的創(chuàng)新之處在于將城市場景巧妙地分解為無法計數(shù)的物體、可計數(shù)的對象和天空,利用先驗分布來理清復(fù)雜的城市環(huán)境。該模型包括一個條件物體生成器,利用語義體素網(wǎng)格作為物體先驗,以集成粗糙的語義和幾何信息。通過在混亂的場景中學習對象生成器的對象布局先驗,模型在對抗性和重構(gòu)損失的端到端訓練中得以優(yōu)化,利用射線-體素和射線-盒交叉策略來優(yōu)化采樣位置,減少所需采樣點的數(shù)量。
在全面的評估中,UrbanGIRAFFE方法在合成和真實數(shù)據(jù)集上超越了各種2D和3D基線,展示了出色的可控性和保真度。在KITTI-360數(shù)據(jù)集上進行的定性評估顯示,UrbanGIRAFFE在背景建模方面優(yōu)于GIRAFFE,實現(xiàn)了增強的物體編輯和相機視角控制。在KITTI-360上進行的剖析研究證實了UrbanGIRAFFE的架構(gòu)組件的有效性,包括重構(gòu)損失、對象判別器和創(chuàng)新的對象建模。在推斷期間采用移動平均模型進一步提高了生成圖像的質(zhì)量。
UrbanGIRAFFE的未來工作包括引入語義體素生成器,以進行新穎場景采樣,并通過光-環(huán)境顏色解纏來探索光照控制。文章強調(diào)了重構(gòu)損失的重要性,以保持保真度并產(chǎn)生多樣的結(jié)果,尤其是對于不經(jīng)常遇到的語義類別。
該研究展示了UrbanGIRAFFE在處理具有挑戰(zhàn)性的城市場景的可控3D感知圖像合成問題方面的卓越成就,實現(xiàn)了在相機視角操作、語義布局和物體交互方面的卓越多功能性。通過利用3D全景先驗,該模型有效地將場景分解為物體、物體和天空,促進了組合生成建模。未來的研究方向包括整合語義體素生成器以進行新穎場景采樣,并通過光-環(huán)境顏色解纏來探索光照控制。 UrbanGIRAFFE通過在合成和實際數(shù)據(jù)集上進行全面評估,展示了在可控性和保真度方面超越各種2D和3D基線的出色性能。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。