Meta研究員探索用posed RGB video進行對象檢測、關(guān)聯(lián)和映射

2021年12月08日 10:12:34 來源：映維網(wǎng)

　　賦予機器感知推斷3D對象映射的能力能夠幫助人工智能系統(tǒng)更接近對世界的語義理解。所述任務(wù)需要構(gòu)建場景的一致3D對象映射。在名為《ODAM: Object Detection, Association, and Mapping using Posed RGB Video》的論文中，Meta和阿德萊德大學(xué)的研究人員探索了一種利用posed RGB video來進行對象檢測，關(guān)聯(lián)和映射的方法。

　　研究人員關(guān)注類別級語義重建和對象映射之間的空間，并通過來自姿態(tài)RGB幀的3D bounding volume來表示對象。與在圖像中使用2D bounding boxs(BBs)類似，3D bounding volume提供了位置和空間的抽象，例如可用于在對象實例錨定信息。

　　通過諸如NeRF和GRAF等先進方法來可靠地推斷場景中單個對象的bounding volume和相關(guān)視圖是重建、嵌入和描述對象的墊腳石。然而，使用RGB-only視頻在3D中定位對象并估計其范圍的任務(wù)帶來了眾多挑戰(zhàn)。

　　首先，盡管2D對象檢測器的深度學(xué)習(xí)方法取得了令人印象深刻的成功，但由于透視投影中的深度比例模糊性，其精度受到了影響;其次，關(guān)于如何將多視圖約束用于3D bounding volume位置和范圍的研究和共識很少。

　　具體而言，3D volume的表示以及如何制定合適的能量函數(shù)依然是一個開放的問題;第三，在多視圖優(yōu)化之前需要解決的關(guān)鍵問題是，從不同角度檢測單個3D對象實例的關(guān)聯(lián)。與SfM或SLAM不同，不正確的關(guān)聯(lián)會顯著地影響3D對象定位。不過，這一問題在雜亂的室內(nèi)環(huán)境中尚未得到充分的研究。在所述環(huán)境中，諸如具有幾乎相同視覺外觀和嚴(yán)重遮擋的多個對象是常見的具體問題。深度模糊和局部觀測使數(shù)據(jù)關(guān)聯(lián)問題復(fù)雜化。

　　針對所述問題，Meta和阿德萊德大學(xué)的研究人員提出了ODAM。這是全新的框架結(jié)合了深度學(xué)習(xí)前端和多視圖優(yōu)化后端，并旨在解決來自posed RGB video的3D對象映射問題。與RGB-D相比，RGB-only的優(yōu)點是功耗顯著降低。

　　團隊假設(shè)圖像的姿態(tài)已知。前端首先檢測感興趣對象，并預(yù)測每個對象的2D屬性(2D BB，對象類)，以及由六自由度剛性姿態(tài)和三自由度比例參數(shù)化的3D BB，如圖2所示。團隊指出，RGB-olny方法可以在對象類別的子集中縮小與RGB-D方法的精度差距。

　　ODAM的目標(biāo)是在RGB-only圖像序列中精確定位對象并估計其bounding volume。如圖2所示，給定RGB幀，前端首先檢測對象并預(yù)測其在camera坐標(biāo)幀中的2D和3D屬性。所述檢測與映射中的現(xiàn)有對象實例相關(guān)聯(lián)，或通過使用GNN解決分配問題而成為新的對象實例。鑒于前端的關(guān)聯(lián)性，后端系統(tǒng)優(yōu)化了來自多個關(guān)聯(lián)2D BB檢測的每個對象的超二次曲面表示，以及來自所有關(guān)聯(lián)視圖的類別條件對象比例優(yōu)先級。

　　其次，GNN中的注意機制不再只考慮手動數(shù)據(jù)關(guān)聯(lián)方法中的成對關(guān)系，而是聚合圖中其他節(jié)點的信息，從而實現(xiàn)更穩(wěn)健的匹配。因此，團隊的GNN可以從場景中的全套對象推斷對象檢測的關(guān)聯(lián)，如圖2所示。

　　團隊使用ScanNet和Scan2CAD來評估對象映射的性能。所有實驗均以Nvidia GeForce GTX 1070 GPU運行。單目探測器的運行速度約為10 fps。盡管GNN的推斷時間隨著映射中對象的數(shù)量線性增長，但在所有掃描網(wǎng)驗證序列中，GNN的平均運行速度為15 fps�？傮w而言，ODAM前端可實現(xiàn)約6 fps。使用Pytorch-Adam優(yōu)化器進行簡單的后端優(yōu)化需要20次迭代，耗時0.2秒。

　　ODAM的關(guān)鍵在于：(1)attention-based的GNN，用于映射數(shù)據(jù)關(guān)聯(lián)的魯棒檢測;(2)基于超二次曲面的多視圖優(yōu)化，用于根據(jù)關(guān)聯(lián)的2D BB和類觀測值精確估計對象bounding volume。

　　每個檢測的3D屬性的主要用途是促進新幀和當(dāng)前全局3D映射之間的數(shù)據(jù)關(guān)聯(lián)。具體來說，團隊開發(fā)了一個圖形神經(jīng)網(wǎng)絡(luò)(GNN)，它將當(dāng)前幀檢測的2D和3D屬性作為輸入，并將它們與映射中現(xiàn)有的對象實例進行匹配。對于現(xiàn)代GPU，系統(tǒng)的前端在雜亂場景中的平均運行速度是6 fps，如ScanNet中的場景。

　　ODAM的后端是一個多視圖優(yōu)化，在給定多個關(guān)聯(lián)的2D BB觀測值的情況下，優(yōu)化每個對象由超二次曲面表示的定向bounding volume。以前的對象集別SLAM框架采用長方體或橢球體作為其對象表示，但它們通常不是通用對象范圍的優(yōu)秀模型。超二次曲面允許長方體和橢球體(以及圓柱體)之間的混合，因此可以為多視圖優(yōu)化提供緊密的bounding volume。

　　超二次曲面已用于擬合點云數(shù)據(jù)或使用深度網(wǎng)絡(luò)從單個圖像解析對象形狀，而團隊提出了一種根據(jù)多個2D BB觀察值來優(yōu)化超二次曲面的方法。除此之外，研究人員同時認(rèn)識到，在雜亂的室內(nèi)環(huán)境中，由于遮擋，對象檢測器給出的2D BB不是零誤差。團隊在優(yōu)化目標(biāo)中加入類別條件先驗以提高魯棒性。

　　使用GNN進行數(shù)據(jù)關(guān)聯(lián)的優(yōu)勢有兩點。首先，可以將不同的屬性(例如2D BB、3D BB、對象類)作為網(wǎng)絡(luò)的聯(lián)合輸入，以提取更具辨別力的特征進行匹配。

　　總的來說，這份論文的貢獻有三個方面：

　　全新的在線3D對象映射系統(tǒng)ODAM，它集成了以6fps速度運行的深度學(xué)習(xí)前端和基于幾何體的后端。ODAM是目前在ScanNet中用于復(fù)雜室內(nèi)場景的性能最好的3D檢測和映射純RGB-only系統(tǒng);

　　提出了一種將單視圖檢測與對象級關(guān)聯(lián)的新方法。所述關(guān)聯(lián)采用了一種attention-based的GNN，并將檢測的2D和3D屬性作為輸入;

　　指出了常用的3D bounding volume表示在多視圖優(yōu)化中的局限性，并介紹了一種基于對象尺度先驗的超二次曲面優(yōu)化方法，其與以前的方法相比有明顯的改進。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

唯品會雙11銷量前十品牌中有7個國貨品牌

11月11日，據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示，秋冬服飾仍是雙11的C位，女士針織衫、女士外套、女士羽絨服等位居服飾消費前列，女士夾克銷量同比增長72%，女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。

真我GT7 Pro今日首銷：新一代旗艦質(zhì)價比之王

真我GT7 Pro正式發(fā)布：驍龍8至尊版質(zhì)價比之王，首銷3599元