小紅書(shū)本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫(huà)像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車(chē)產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線(xiàn):iPhone用戶(hù)可在朋友圈發(fā)實(shí)況照片了蘋(píng)果有線(xiàn)耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚(yú)相關(guān)搜索量暴漲384%2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷(xiāo)量及銷(xiāo)售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專(zhuān)利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)
  • 首頁(yè) > 企業(yè)IT頻道 > 軟件即服務(wù)

    Meta MCC:通過(guò)3D感知編碼器,改善2D圖像到3D模型質(zhì)量

    2023年02月06日 20:54:23   來(lái)源:青亭網(wǎng)

      作為現(xiàn)階段最成功的VR內(nèi)容生態(tài)之一,Quest商店吸引了越來(lái)越多開(kāi)發(fā)者發(fā)布VR內(nèi)容,但這對(duì)于Meta來(lái)講似乎還不夠,其也在探索某種UGC VR生態(tài),比如在Horizon Worlds中提供可視化開(kāi)發(fā)工具,讓普通人也能創(chuàng)造VR應(yīng)用。而近期,Meta公布的一項(xiàng)新研究表明,未來(lái)制作AR/VR內(nèi)容可能就像拍短視頻那么簡(jiǎn)單。

      據(jù)了解,Meta為了簡(jiǎn)化AR/VR內(nèi)容開(kāi)發(fā)方式,研發(fā)了一種RGB-D圖像生成3D模型方案:MCC。MMC全稱(chēng)是多視圖壓縮編碼,它是一種基于Transformer的編碼器-解碼器模型,可根據(jù)一幀RGB-D圖像合成/重建3D模型,潛在應(yīng)用場(chǎng)景包括AR/VR、3D視覺(jué)重建、機(jī)器人導(dǎo)航、數(shù)字孿生/虛擬仿真等等。與普通彩色2D圖像不同,RGB-D是具有深度的彩色圖像,相當(dāng)于普通RGB三通道彩色圖像加上深度圖(Depth Map),二者是配準(zhǔn)的,像素一一對(duì)應(yīng)。

    微信圖片_20230131142525

      實(shí)際上,Meta在2018年的F8大會(huì)上,就曾公布3D照片研究,可通過(guò)雙攝手機(jī)拍攝出具有3D效果的照片,其中包含一定的深度信息。其甚至還研發(fā)了將2D圖像轉(zhuǎn)3D的CNN模型,特點(diǎn)是支持單攝手機(jī)。這意味著,它如果結(jié)合MCC方案,或許可以將單攝手機(jī)捕捉的2D圖像合成為3D模型。

      而Transformer是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,谷歌曾使用它來(lái)增強(qiáng)搜索引擎,而近期比較火的ChatGPT模型也是基于Transformer。起初,Transformer更常用與自然語(yǔ)言處理領(lǐng)域,而隨著它與大規(guī)模、通用類(lèi)別的學(xué)習(xí)模型結(jié)合,便也開(kāi)始被用于語(yǔ)言處理之外的領(lǐng)域,比如圖像合成、圖像分析。

      利用MCC方案,3D開(kāi)發(fā)/合成將有望實(shí)現(xiàn)規(guī);。隨著深度傳感器、深度捕捉AI模型在手機(jī)上普及,具有深度信息的圖像越來(lái)越容易獲得,因此MCC可使用的數(shù)據(jù)規(guī)模足夠大。研究背景

      Meta科研人員指出,視覺(jué)識(shí)別的一個(gè)核心目標(biāo)根據(jù)單個(gè)圖像來(lái)理解物體和場(chǎng)景。在大規(guī)模學(xué)習(xí)和通用表示推動(dòng)下,2D圖像識(shí)別技術(shù)得到大幅提升,但現(xiàn)階段識(shí)別3D場(chǎng)景/物體還存在挑戰(zhàn),因?yàn)?D圖像源中存在圖形遮擋,所以很難從單張圖像合成完整的3D模型。

      為了解決這一問(wèn)題,一些3D合成模型依賴(lài)于多張不同角度的源圖像。而如果用CAD模型來(lái)訓(xùn)練,市面可用的數(shù)據(jù)集規(guī)模不夠多,因此限制了3D合成和理解技術(shù)的發(fā)展。

      而MCC只需要RGB-D圖像就能訓(xùn)練,圖像中不可見(jiàn)的部分也能在3D模型中完整預(yù)測(cè)/合成。監(jiān)督所使用的數(shù)據(jù)則基于含有深度信息、相機(jī)姿態(tài)的視頻幀。 方案原理

      MCC采用簡(jiǎn)單的解碼器-編碼器架構(gòu),將RGB-D圖像輸入到MCC中會(huì)產(chǎn)生輸入編碼,然后解碼器將在輸入編碼中訪問(wèn)3D點(diǎn)數(shù)據(jù),以預(yù)測(cè)該點(diǎn)的占用率和RGB色彩(將3D重建定義為二元分類(lèi)問(wèn)題)。簡(jiǎn)單來(lái)講,MCC只需要處理3D點(diǎn)云數(shù)據(jù),而3D點(diǎn)可以捕捉任何對(duì)象或場(chǎng)景,通用性比網(wǎng)格和立體像素更好,因此用大規(guī)模RGB-D圖像數(shù)據(jù)就能訓(xùn)練模型。另外,RGB-D圖像可通過(guò)手機(jī)的LiDAR傳感器來(lái)捕捉,或是由深度模型來(lái)計(jì)算(比如MiDas、COLMAP)。

      科研人員利用來(lái)自不同數(shù)據(jù)集的深度圖像/視頻來(lái)訓(xùn)練MCC,這些數(shù)據(jù)部分未包含3D場(chǎng)景、3D對(duì)象的全部角度,而這將需要AI重新構(gòu)建。此外,MCC也可以將AI合成的圖像轉(zhuǎn)化為3D模型。

      因此,MCC最大的特點(diǎn)是可預(yù)測(cè)RGB-D圖像中看不見(jiàn)、被遮擋的3D幾何形狀?蒲腥藛T表示:MCC模型與基于圖像的自監(jiān)督學(xué)習(xí)、掩碼自動(dòng)編碼器(MAE)的最新進(jìn)展有直接關(guān)系,MAE也是通過(guò)預(yù)測(cè)圖像中看不見(jiàn)的形狀來(lái)學(xué)習(xí)圖像表示。此外,MCC無(wú)需具有注釋的3D數(shù)據(jù),成本更低、數(shù)據(jù)更容易收集。

      科研人員表示:研究結(jié)果表明,將基于點(diǎn)云的3D合成模型與通用類(lèi)別的大規(guī)模訓(xùn)練結(jié)合,是有效的。未來(lái),希望將這種成果擴(kuò)展為通用的3D分析視覺(jué)系統(tǒng),讓3D重建/合成效果更接近人腦的想象力。 對(duì)比其他方案

      谷歌、NVIDIA等科技公司也曾研發(fā)2D圖轉(zhuǎn)3D技術(shù),分別依賴(lài)于NeRF、逆向渲染(3D MoMa),缺點(diǎn)是需要多張圖像,而且NeRF很那從單個(gè)圖像生成新的場(chǎng)景。其他一些方案需要使用3D CAD模型等規(guī)模有限的數(shù)據(jù)來(lái)訓(xùn)練,而MCC只需要通過(guò)RGB-D圖像就能訓(xùn)練3D重建。

      此外,MCC普適性好,對(duì)于未曾見(jiàn)過(guò)的新對(duì)象類(lèi)別,也能實(shí)現(xiàn)“開(kāi)箱即用”(支持零樣本學(xué)習(xí)),直接處理成3D模型。

      為了展示MCC與不同數(shù)據(jù)來(lái)源的兼容性,科研人員將其與多個(gè)圖像源結(jié)合,比如: iPhone 14 Pro(LiDAR傳感器) 圖像生成AI DALL-E 2 Facebook的開(kāi)源3D重建數(shù)據(jù)集CO3D(Common Objects in 3D) 大型視覺(jué)數(shù)據(jù)庫(kù)ImageNet 3D仿真數(shù)據(jù)集Hypersim 室內(nèi)場(chǎng)景數(shù)據(jù)集Taskonomy

      這些數(shù)據(jù)集包含了50多種常見(jiàn)對(duì)象類(lèi)型,以及大規(guī)模場(chǎng)景,比如倉(cāng)庫(kù)、禮堂、閣樓、餐廳等等,利用它們重建的3D模型還不能一比一還原,而是看起來(lái)比原來(lái)更圓潤(rùn)、更卡通化,但應(yīng)用在3D開(kāi)發(fā)中質(zhì)量足夠好。未來(lái),隨著用更多數(shù)據(jù)、更多樣化對(duì)象進(jìn)行訓(xùn)練,MCC的性能還可以顯著提升。

      參考:Meta

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。