賦予機器感知推斷3D對象映射的能力能夠幫助人工智能系統(tǒng)更接近對世界的語義理解。所述任務(wù)需要構(gòu)建場景的一致3D對象映射。在名為《ODAM: Object Detection, Association, and Mapping using Posed RGB Video》的論文中,Meta和阿德萊德大學(xué)的研究人員探索了一種利用posed RGB video來進行對象檢測,關(guān)聯(lián)和映射的方法。
研究人員關(guān)注類別級語義重建和對象映射之間的空間,并通過來自姿態(tài)RGB幀的3D bounding volume來表示對象。與在圖像中使用2D bounding boxs(BBs)類似,3D bounding volume提供了位置和空間的抽象,例如可用于在對象實例錨定信息。
通過諸如NeRF和GRAF等先進方法來可靠地推斷場景中單個對象的bounding volume和相關(guān)視圖是重建、嵌入和描述對象的墊腳石。然而,使用RGB-only視頻在3D中定位對象并估計其范圍的任務(wù)帶來了眾多挑戰(zhàn)。
首先,盡管2D對象檢測器的深度學(xué)習(xí)方法取得了令人印象深刻的成功,但由于透視投影中的深度比例模糊性,其精度受到了影響;其次,關(guān)于如何將多視圖約束用于3D bounding volume位置和范圍的研究和共識很少。
具體而言,3D volume的表示以及如何制定合適的能量函數(shù)依然是一個開放的問題;第三,在多視圖優(yōu)化之前需要解決的關(guān)鍵問題是,從不同角度檢測單個3D對象實例的關(guān)聯(lián)。與SfM或SLAM不同,不正確的關(guān)聯(lián)會顯著地影響3D對象定位。不過,這一問題在雜亂的室內(nèi)環(huán)境中尚未得到充分的研究。在所述環(huán)境中,諸如具有幾乎相同視覺外觀和嚴(yán)重遮擋的多個對象是常見的具體問題。深度模糊和局部觀測使數(shù)據(jù)關(guān)聯(lián)問題復(fù)雜化。
針對所述問題,Meta和阿德萊德大學(xué)的研究人員提出了ODAM。這是全新的框架結(jié)合了深度學(xué)習(xí)前端和多視圖優(yōu)化后端,并旨在解決來自posed RGB video的3D對象映射問題。與RGB-D相比,RGB-only的優(yōu)點是功耗顯著降低。
團隊假設(shè)圖像的姿態(tài)已知。前端首先檢測感興趣對象,并預(yù)測每個對象的2D屬性(2D BB,對象類),以及由六自由度剛性姿態(tài)和三自由度比例參數(shù)化的3D BB,如圖2所示。團隊指出,RGB-olny方法可以在對象類別的子集中縮小與RGB-D方法的精度差距。
ODAM的目標(biāo)是在RGB-only圖像序列中精確定位對象并估計其bounding volume。如圖2所示,給定RGB幀,前端首先檢測對象并預(yù)測其在camera坐標(biāo)幀中的2D和3D屬性。所述檢測與映射中的現(xiàn)有對象實例相關(guān)聯(lián),或通過使用GNN解決分配問題而成為新的對象實例。鑒于前端的關(guān)聯(lián)性,后端系統(tǒng)優(yōu)化了來自多個關(guān)聯(lián)2D BB檢測的每個對象的超二次曲面表示,以及來自所有關(guān)聯(lián)視圖的類別條件對象比例優(yōu)先級。
其次,GNN中的注意機制不再只考慮手動數(shù)據(jù)關(guān)聯(lián)方法中的成對關(guān)系,而是聚合圖中其他節(jié)點的信息,從而實現(xiàn)更穩(wěn)健的匹配。因此,團隊的GNN可以從場景中的全套對象推斷對象檢測的關(guān)聯(lián),如圖2所示。
團隊使用ScanNet和Scan2CAD來評估對象映射的性能。所有實驗均以Nvidia GeForce GTX 1070 GPU運行。單目探測器的運行速度約為10 fps。盡管GNN的推斷時間隨著映射中對象的數(shù)量線性增長,但在所有掃描網(wǎng)驗證序列中,GNN的平均運行速度為15 fps?傮w而言,ODAM前端可實現(xiàn)約6 fps。使用Pytorch-Adam優(yōu)化器進行簡單的后端優(yōu)化需要20次迭代,耗時0.2秒。
ODAM的關(guān)鍵在于:(1)attention-based的GNN,用于映射數(shù)據(jù)關(guān)聯(lián)的魯棒檢測;(2)基于超二次曲面的多視圖優(yōu)化,用于根據(jù)關(guān)聯(lián)的2D BB和類觀測值精確估計對象bounding volume。
每個檢測的3D屬性的主要用途是促進新幀和當(dāng)前全局3D映射之間的數(shù)據(jù)關(guān)聯(lián)。具體來說,團隊開發(fā)了一個圖形神經(jīng)網(wǎng)絡(luò)(GNN),它將當(dāng)前幀檢測的2D和3D屬性作為輸入,并將它們與映射中現(xiàn)有的對象實例進行匹配。對于現(xiàn)代GPU,系統(tǒng)的前端在雜亂場景中的平均運行速度是6 fps,如ScanNet中的場景。
ODAM的后端是一個多視圖優(yōu)化,在給定多個關(guān)聯(lián)的2D BB觀測值的情況下,優(yōu)化每個對象由超二次曲面表示的定向bounding volume。以前的對象集別SLAM框架采用長方體或橢球體作為其對象表示,但它們通常不是通用對象范圍的優(yōu)秀模型。超二次曲面允許長方體和橢球體(以及圓柱體)之間的混合,因此可以為多視圖優(yōu)化提供緊密的bounding volume。
超二次曲面已用于擬合點云數(shù)據(jù)或使用深度網(wǎng)絡(luò)從單個圖像解析對象形狀,而團隊提出了一種根據(jù)多個2D BB觀察值來優(yōu)化超二次曲面的方法。除此之外,研究人員同時認(rèn)識到,在雜亂的室內(nèi)環(huán)境中,由于遮擋,對象檢測器給出的2D BB不是零誤差。團隊在優(yōu)化目標(biāo)中加入類別條件先驗以提高魯棒性。
使用GNN進行數(shù)據(jù)關(guān)聯(lián)的優(yōu)勢有兩點。首先,可以將不同的屬性(例如2D BB、3D BB、對象類)作為網(wǎng)絡(luò)的聯(lián)合輸入,以提取更具辨別力的特征進行匹配。
總的來說,這份論文的貢獻有三個方面:
全新的在線3D對象映射系統(tǒng)ODAM,它集成了以6fps速度運行的深度學(xué)習(xí)前端和基于幾何體的后端。ODAM是目前在ScanNet中用于復(fù)雜室內(nèi)場景的性能最好的3D檢測和映射純RGB-only系統(tǒng);
提出了一種將單視圖檢測與對象級關(guān)聯(lián)的新方法。所述關(guān)聯(lián)采用了一種attention-based的GNN,并將檢測的2D和3D屬性作為輸入;
指出了常用的3D bounding volume表示在多視圖優(yōu)化中的局限性,并介紹了一種基于對象尺度先驗的超二次曲面優(yōu)化方法,其與以前的方法相比有明顯的改進。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。