基于3D視頻重建虛實(shí)場(chǎng)景交互 Meta提出3D mask volume

2021年11月04日 11:51:21 來(lái)源：映維網(wǎng)

　　視圖合成的最新進(jìn)展顯示了從圖像創(chuàng)建沉浸式虛擬體驗(yàn)的出色結(jié)果。盡管如此，為了重建與虛擬場(chǎng)景的忠實(shí)交互，我們非常需要結(jié)合時(shí)間信息的能力。

　　在名為《Deep 3D Mask Volume for View Synthesis of Dynamic Scenes》的論文中，已改名為Meta的Facebook和加利福尼亞大學(xué)研究了一種特定的設(shè)置，其中輸入視頻來(lái)自靜態(tài)的雙目攝像頭，并且新視圖大多是從輸入視頻中推斷出來(lái)。團(tuán)隊(duì)相信，隨著雙攝像頭和多攝像頭智能手機(jī)越來(lái)越受歡迎，這種情況將非常有用，而且可能會(huì)對(duì)3D電話會(huì)議、監(jiān)控或虛擬現(xiàn)實(shí)頭顯帶來(lái)非常有趣的影響。另外，研究人員可以從靜態(tài)攝像頭裝置中獲取數(shù)據(jù)集。

　　盡管可以在每個(gè)單獨(dú)的視頻幀應(yīng)用最先進(jìn)的圖像視圖合成算法，但結(jié)果缺乏時(shí)間一致性，并且經(jīng)常顯示閃爍偽影。問(wèn)題主要來(lái)自于看不見(jiàn)的遮擋區(qū)域，因?yàn)樗惴ㄔ诿繋A(chǔ)上預(yù)測(cè)它們。由此產(chǎn)生的估計(jì)在整個(gè)時(shí)間維度上不一致，并且在視頻中顯示時(shí)會(huì)導(dǎo)致某些區(qū)域變得不穩(wěn)定。

　　在研究中，團(tuán)隊(duì)通過(guò)利用跨時(shí)間的靜態(tài)背景信息來(lái)解決外推視圖時(shí)的時(shí)間不一致性。為此，研究人員采用了一個(gè)3D mask volume，它允許在3D空間(而不是2D mask)中進(jìn)行操作，以推斷場(chǎng)景中的移動(dòng)對(duì)象，并在整個(gè)視頻中重復(fù)使用靜態(tài)背景觀察。

　　團(tuán)隊(duì)首先通過(guò)MPI網(wǎng)絡(luò)將瞬時(shí)和背景輸入提升為兩組多平面圖像(MPI)。然后，扭曲同一組輸入圖像以創(chuàng)建時(shí)間平面掃描volume，從而提供有關(guān)場(chǎng)景三維結(jié)構(gòu)的信息。mask網(wǎng)絡(luò)將這個(gè)volume轉(zhuǎn)換為3D mask volume，使得能夠在兩組MPI之間混合。最后，混合MPI volume可以渲染具有最小閃爍瑕疵的新視圖。

　　由于GPU內(nèi)存的限制，團(tuán)隊(duì)選擇了兩步訓(xùn)練方案來(lái)訓(xùn)練網(wǎng)絡(luò)。首先在RealEstate10K數(shù)據(jù)集上訓(xùn)練MPI網(wǎng)絡(luò)，然后在自己的視頻數(shù)據(jù)集上只訓(xùn)練mask網(wǎng)絡(luò)。這種訓(xùn)練方案可以使內(nèi)存使用保持在合理的范圍內(nèi)，并且速度足夠快。MPI生成網(wǎng)絡(luò)是通過(guò)預(yù)測(cè)一個(gè)新的視圖并應(yīng)用渲染損失L作為監(jiān)控來(lái)訓(xùn)練。本階段訓(xùn)練800K步。

　　在前一個(gè)預(yù)訓(xùn)練階段之后，團(tuán)隊(duì)凍結(jié)MPI網(wǎng)絡(luò)的權(quán)重，并使用loss L僅訓(xùn)練mask網(wǎng)絡(luò)。所述網(wǎng)絡(luò)從10個(gè)視圖中隨機(jī)選取2個(gè)視圖作為輸入，然后在每一步從其余視圖中隨機(jī)選擇一個(gè)目標(biāo)camera位置。團(tuán)隊(duì)從96個(gè)場(chǎng)景中選擇86個(gè)作為訓(xùn)練數(shù)據(jù)集，并將圖像重新縮放到640×360。第二階段為100K步的訓(xùn)練。訓(xùn)練管道在PyTorch中實(shí)施，在單個(gè)RTX 2080Ti GPU上訓(xùn)練大約需要5天。分辨率為640×360時(shí)，使用完整管道推斷Mo大約需要1.75秒，而渲染需要另外0.28秒。請(qǐng)注意，渲染管道在PyTorch中實(shí)現(xiàn)，無(wú)需進(jìn)一步優(yōu)化。在實(shí)踐中，使用OpenGL或其他光柵化器可以大大加快速度。

　　為了訓(xùn)練這個(gè)網(wǎng)絡(luò)，團(tuán)隊(duì)同時(shí)引入了一個(gè)新的多視圖視頻數(shù)據(jù)集來(lái)解決公共可用數(shù)據(jù)的不足。研究人員構(gòu)建了一個(gè)由10個(gè)動(dòng)作攝像頭組成的定制攝像裝置，并使用靜態(tài)裝置捕捉高質(zhì)量的120FPS視頻。所述數(shù)據(jù)集包含96個(gè)不同戶外環(huán)境和人類(lèi)交互的動(dòng)態(tài)場(chǎng)景。實(shí)驗(yàn)證明，所述方法能夠在僅使用兩個(gè)輸入視圖的情況下生成時(shí)間穩(wěn)定的結(jié)果。

　　對(duì)于比較，團(tuán)隊(duì)從數(shù)據(jù)集中選擇了7個(gè)看不見(jiàn)的視頻，并將它們細(xì)分為14個(gè)片段，重點(diǎn)關(guān)注場(chǎng)景中的顯式運(yùn)動(dòng)。結(jié)果顯示，團(tuán)隊(duì)的渲染損失依然提供了時(shí)間上最穩(wěn)定的結(jié)果，而其他兩個(gè)損失則為了更好的解釋性而犧牲了時(shí)間一致性。

　　當(dāng)然，團(tuán)隊(duì)提出的數(shù)據(jù)集和算法存在一定的局限性：首先，攝像頭限制為拍攝時(shí)保持靜止。這主要是由于同步和姿態(tài)估計(jì)的限制。盡管可以使用基于軟件的方法實(shí)現(xiàn)良好的同步，但仍然會(huì)存在幾毫秒的錯(cuò)誤。當(dāng)攝影裝備處于運(yùn)動(dòng)狀態(tài)時(shí)，錯(cuò)誤可能會(huì)被放大，并導(dǎo)致對(duì)camera姿勢(shì)的錯(cuò)誤估計(jì)。攝像頭在不同時(shí)間的姿態(tài)同時(shí)需要更多的計(jì)算，這可能會(huì)導(dǎo)致系統(tǒng)中累積錯(cuò)誤。所述問(wèn)題可以通過(guò)校準(zhǔn)其中一個(gè)攝像頭的camera軌跡并利用剛性假設(shè)推斷其他camera軌跡來(lái)解決。

　　另一個(gè)限制是，團(tuán)隊(duì)需要對(duì)靜態(tài)背景進(jìn)行估計(jì)。這很容易通過(guò)應(yīng)用中值濾波器實(shí)現(xiàn)。盡管它適用于大多數(shù)場(chǎng)景，但這種方法有時(shí)并不可靠。不過(guò)，業(yè)內(nèi)有更先進(jìn)的方法可以在未來(lái)使用。

　　總的來(lái)說(shuō)，團(tuán)隊(duì)討論了立體輸入視頻動(dòng)態(tài)場(chǎng)景的視圖合成。主要的挑戰(zhàn)是，渲染結(jié)果容易出現(xiàn)時(shí)間偽影，如無(wú)序區(qū)域中的閃爍。為了解決這個(gè)問(wèn)題，團(tuán)隊(duì)引入了一種新的3D mask volume擴(kuò)展，用從時(shí)間幀獲取的背景信息小心地替換無(wú)序區(qū)域。另外，團(tuán)隊(duì)還介紹了一個(gè)高質(zhì)量的多視圖視頻數(shù)據(jù)集，其中包含96個(gè)以120FPS拍攝的各種人類(lèi)交互場(chǎng)景和室外環(huán)境。在未來(lái)的研究中，研究人員希望擴(kuò)大數(shù)據(jù)集以考慮動(dòng)態(tài)攝像頭運(yùn)動(dòng)，并在更大的基線操作。團(tuán)隊(duì)相信，動(dòng)態(tài)場(chǎng)景的視頻視圖合成是沉浸式應(yīng)用的下一個(gè)前沿領(lǐng)域，而本次研究在這方面邁出了關(guān)鍵的一步。

　　研究貢獻(xiàn)可以總結(jié)為：

　　1.一個(gè)由96個(gè)動(dòng)態(tài)場(chǎng)景組成的多視圖視頻數(shù)據(jù)集

　　2.一種新穎的3D mask volume，其能夠在3D中從靜態(tài)背景分割動(dòng)態(tài)對(duì)象，并產(chǎn)生更高質(zhì)量和時(shí)間穩(wěn)定的結(jié)果。

　　相關(guān)論文：Deep 3D Mask Volume for View Synthesis of Dynamic Scenes

　　高質(zhì)量的視頻數(shù)據(jù)集對(duì)于基于學(xué)習(xí)的新型視點(diǎn)視頻合成算法至關(guān)重要。理想的數(shù)據(jù)集將包含多種場(chǎng)景，在多個(gè)同步視圖中捕獲。在這項(xiàng)研究中，團(tuán)隊(duì)介紹了一種新的多視圖視頻數(shù)據(jù)集，并討論了現(xiàn)有數(shù)據(jù)集與所述數(shù)據(jù)集相比的局限性。

　　團(tuán)隊(duì)的目標(biāo)是在給定立體視頻輸入的情況下合成時(shí)間一致的新視圖視頻。所以，研究人員在多平面圖像的前期研究基礎(chǔ)上構(gòu)建了算法，并提出了一種新的mask volume結(jié)構(gòu)，以充分利用時(shí)間背景信息和分層表示。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng)，展示全球科技創(chuàng)新力量

近日，德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng)，有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

服貿(mào)會(huì)高通展示開(kāi)放創(chuàng)新生態(tài)，以5G、AI等技術(shù)促進(jìn)合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來(lái)三季再續(xù)輝煌

新聞

敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

近日，中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無(wú)人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來(lái)都要半個(gè)月了，現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

2024年3月12日，由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

研究

2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”，將于2024年3月23日至24日舉辦。

專(zhuān)題

2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)

返回主頁(yè) ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁(yè)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

基于3D視頻重建虛實(shí)場(chǎng)景交互 Meta提出3D mask volume

擴(kuò)展閱讀