Meta MCC：通過3D感知編碼器，改善2D圖像到3D模型質(zhì)量

2023年02月06日 20:54:23 來源：青亭網(wǎng)

　　作為現(xiàn)階段最成功的VR內(nèi)容生態(tài)之一，Quest商店吸引了越來越多開發(fā)者發(fā)布VR內(nèi)容，但這對于Meta來講似乎還不夠，其也在探索某種UGC VR生態(tài)，比如在Horizon Worlds中提供可視化開發(fā)工具，讓普通人也能創(chuàng)造VR應用。而近期，Meta公布的一項新研究表明，未來制作AR/VR內(nèi)容可能就像拍短視頻那么簡單。

　　據(jù)了解，Meta為了簡化AR/VR內(nèi)容開發(fā)方式，研發(fā)了一種RGB-D圖像生成3D模型方案：MCC。MMC全稱是多視圖壓縮編碼，它是一種基于Transformer的編碼器-解碼器模型，可根據(jù)一幀RGB-D圖像合成/重建3D模型，潛在應用場景包括AR/VR、3D視覺重建、機器人導航、數(shù)字孿生/虛擬仿真等等。與普通彩色2D圖像不同，RGB-D是具有深度的彩色圖像，相當于普通RGB三通道彩色圖像加上深度圖(Depth Map)，二者是配準的，像素一一對應。

微信圖片_20230131142525

　　實際上，Meta在2018年的F8大會上，就曾公布3D照片研究，可通過雙攝手機拍攝出具有3D效果的照片，其中包含一定的深度信息。其甚至還研發(fā)了將2D圖像轉(zhuǎn)3D的CNN模型，特點是支持單攝手機。這意味著，它如果結(jié)合MCC方案，或許可以將單攝手機捕捉的2D圖像合成為3D模型。

　　而Transformer是一種采用自注意力機制的深度學習模型，谷歌曾使用它來增強搜索引擎，而近期比較火的ChatGPT模型也是基于Transformer。起初，Transformer更常用與自然語言處理領域，而隨著它與大規(guī)模、通用類別的學習模型結(jié)合，便也開始被用于語言處理之外的領域，比如圖像合成、圖像分析。

　　利用MCC方案，3D開發(fā)/合成將有望實現(xiàn)規(guī)�；�。隨著深度傳感器、深度捕捉AI模型在手機上普及，具有深度信息的圖像越來越容易獲得，因此MCC可使用的數(shù)據(jù)規(guī)模足夠大。研究背景

　　Meta科研人員指出，視覺識別的一個核心目標根據(jù)單個圖像來理解物體和場景。在大規(guī)模學習和通用表示推動下，2D圖像識別技術得到大幅提升，但現(xiàn)階段識別3D場景/物體還存在挑戰(zhàn)，因為2D圖像源中存在圖形遮擋，所以很難從單張圖像合成完整的3D模型。

　　為了解決這一問題，一些3D合成模型依賴于多張不同角度的源圖像。而如果用CAD模型來訓練，市面可用的數(shù)據(jù)集規(guī)模不夠多，因此限制了3D合成和理解技術的發(fā)展。

　　而MCC只需要RGB-D圖像就能訓練，圖像中不可見的部分也能在3D模型中完整預測/合成。監(jiān)督所使用的數(shù)據(jù)則基于含有深度信息、相機姿態(tài)的視頻幀。方案原理

　　MCC采用簡單的解碼器-編碼器架構(gòu)，將RGB-D圖像輸入到MCC中會產(chǎn)生輸入編碼，然后解碼器將在輸入編碼中訪問3D點數(shù)據(jù)，以預測該點的占用率和RGB色彩(將3D重建定義為二元分類問題)。簡單來講，MCC只需要處理3D點云數(shù)據(jù)，而3D點可以捕捉任何對象或場景，通用性比網(wǎng)格和立體像素更好，因此用大規(guī)模RGB-D圖像數(shù)據(jù)就能訓練模型。另外，RGB-D圖像可通過手機的LiDAR傳感器來捕捉，或是由深度模型來計算(比如MiDas、COLMAP)。

　　科研人員利用來自不同數(shù)據(jù)集的深度圖像/視頻來訓練MCC，這些數(shù)據(jù)部分未包含3D場景、3D對象的全部角度，而這將需要AI重新構(gòu)建。此外，MCC也可以將AI合成的圖像轉(zhuǎn)化為3D模型。

　　因此，MCC最大的特點是可預測RGB-D圖像中看不見、被遮擋的3D幾何形狀�？蒲腥藛T表示：MCC模型與基于圖像的自監(jiān)督學習、掩碼自動編碼器(MAE)的最新進展有直接關系，MAE也是通過預測圖像中看不見的形狀來學習圖像表示。此外，MCC無需具有注釋的3D數(shù)據(jù)，成本更低、數(shù)據(jù)更容易收集。

　　科研人員表示：研究結(jié)果表明，將基于點云的3D合成模型與通用類別的大規(guī)模訓練結(jié)合，是有效的。未來，希望將這種成果擴展為通用的3D分析視覺系統(tǒng)，讓3D重建/合成效果更接近人腦的想象力。對比其他方案

　　谷歌、NVIDIA等科技公司也曾研發(fā)2D圖轉(zhuǎn)3D技術，分別依賴于NeRF、逆向渲染(3D MoMa)，缺點是需要多張圖像，而且NeRF很那從單個圖像生成新的場景。其他一些方案需要使用3D CAD模型等規(guī)模有限的數(shù)據(jù)來訓練，而MCC只需要通過RGB-D圖像就能訓練3D重建。

　　此外，MCC普適性好，對于未曾見過的新對象類別，也能實現(xiàn)“開箱即用”(支持零樣本學習)，直接處理成3D模型。

　　為了展示MCC與不同數(shù)據(jù)來源的兼容性，科研人員將其與多個圖像源結(jié)合，比如： iPhone 14 Pro(LiDAR傳感器) 圖像生成AI DALL-E 2 Facebook的開源3D重建數(shù)據(jù)集CO3D(Common Objects in 3D) 大型視覺數(shù)據(jù)庫ImageNet 3D仿真數(shù)據(jù)集Hypersim 室內(nèi)場景數(shù)據(jù)集Taskonomy

　　這些數(shù)據(jù)集包含了50多種常見對象類型，以及大規(guī)模場景，比如倉庫、禮堂、閣樓、餐廳等等，利用它們重建的3D模型還不能一比一還原，而是看起來比原來更圓潤、更卡通化，但應用在3D開發(fā)中質(zhì)量足夠好。未來，隨著用更多數(shù)據(jù)、更多樣化對象進行訓練，MCC的性能還可以顯著提升。

　　參考：Meta

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信