深度攝像頭和激光雷達(dá)掃描儀能夠捕獲到空間中各種對(duì)象的三維幾何結(jié)構(gòu)。但當(dāng)在現(xiàn)實(shí)世界中使用時(shí),各種因素可能會(huì)極大地限制僅從數(shù)據(jù)中捕獲和重建對(duì)象完整3D幾何形狀的能力。
具體來說,諸如自遮擋或傳感器分辨率限制等因素可能導(dǎo)致掃描儀捕獲不完整或部分采樣的3D對(duì)象。為了充分理解三維世界,必須解決數(shù)據(jù)不全和缺失的對(duì)象部分。目前的點(diǎn)云補(bǔ)全方法在處理域內(nèi)(in-domain)形狀方面表現(xiàn)出令人印象深刻的結(jié)果。
然而,由于缺乏具有各種形狀的大規(guī)模數(shù)據(jù)集,相關(guān)方法在處理其域外(out-of-domain/OOD)形狀類時(shí)經(jīng)常面臨困難。對(duì)廣泛3D數(shù)據(jù)收集的需求向開發(fā)一個(gè)能夠有效完成需要深度感知的現(xiàn)實(shí)場(chǎng)景中遇到的各種對(duì)象類別的模型提出了重大挑戰(zhàn)。
在名為《Point-Cloud Completion with Pretrained Text-to-image Diffusion Models》的論文中,英偉達(dá)和巴伊蘭大學(xué)的研究人員利用預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型來解決OOD對(duì)象的這一挑戰(zhàn)。
實(shí)驗(yàn)證明,即便從未就3D數(shù)據(jù)訓(xùn)練過,相關(guān)模型都可以用于文本引導(dǎo)的3D形狀生成。這是通過SDS loss來完成,由SDS loss測(cè)量3D形狀渲染圖像與先前模型的一致性。團(tuán)隊(duì)研究的關(guān)鍵思想是,由于文本到圖像的擴(kuò)散模型是圍繞大量不同的對(duì)象訓(xùn)練,它們包含了關(guān)于對(duì)象形狀和紋理的強(qiáng)先驗(yàn),而所述先驗(yàn)可以用于補(bǔ)全缺失的部分。
例如,給定一個(gè)局部點(diǎn)云,知道它對(duì)應(yīng)于一把椅子可以指導(dǎo)補(bǔ)全過程,因?yàn)檫@個(gè)類的對(duì)象預(yù)計(jì)會(huì)表現(xiàn)出特定類型的對(duì)稱性和部分。所述方法的關(guān)鍵挑戰(zhàn)是將擴(kuò)散模型的先驗(yàn)信息與觀測(cè)到的局部點(diǎn)云相結(jié)合,以生成忠實(shí)于局部觀測(cè)的完整形狀。
研究人員介紹了一種利用SDS-loss在文本和點(diǎn)云輸入約束的引導(dǎo)下精確補(bǔ)全對(duì)象表面的點(diǎn)云補(bǔ)全方法SDS-Complete。為了與輸入點(diǎn)保持一致,他們使用Signed Distance Function(SDF)表面表示,并約束SDF的零水平集通過輸入點(diǎn)。SDS-Complete能夠克服使用OOD對(duì)象的限制,因?yàn)樗鼛砹祟A(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的語義。這使得團(tuán)隊(duì)能夠從部分觀測(cè)中生成準(zhǔn)確而逼真的3D形狀。
實(shí)驗(yàn)證明了SDS-Complete可以從兩個(gè)真實(shí)世界的數(shù)據(jù)集生成具有不同形狀類型的一系列對(duì)象的補(bǔ)全:含有各種不完整真實(shí)世界深度攝像頭掃描的Redwood數(shù)據(jù)集;以及激光雷達(dá)掃描的KITTI數(shù)據(jù)集。對(duì)于所述兩種情況,團(tuán)隊(duì)提出的解決方案都優(yōu)于最先進(jìn)的方法。
團(tuán)隊(duì)的總體方案如上圖所示,而它解決了在給定深度傳感器捕獲的不完整點(diǎn)云測(cè)量值的情況下補(bǔ)全表面的問題。輸入測(cè)量(右上)包括一組3D輸入點(diǎn)P = {p1, p2,…, pN}和嵌入不完整對(duì)象y的文本描述。
假設(shè)P是由深度傳感器(如深度攝像頭或激光雷達(dá)傳感器)捕獲,并且傳感器的內(nèi)部參數(shù)已知。研究人員進(jìn)一步假設(shè)點(diǎn)云從原始的掃描分割,即P中所有的點(diǎn)都屬于由y描述的一個(gè)對(duì)象。
傳感器射線i與二進(jìn)制值掩模Mi∈{0,1}相關(guān),表明這種射線是否在屬于P的點(diǎn)處與表面相交。如果Mi=1,則射線i同時(shí)與從傳感器到表面Di∈R的射線距離相關(guān)聯(lián)。
最后,對(duì)于攝像頭采樣過程,假設(shè)原始的非分段掃描包含來自世界地平面的點(diǎn),并用于估計(jì)平面的參數(shù)l∈P3。
團(tuán)隊(duì)的方法對(duì)由神經(jīng)符號(hào)距離函數(shù)fθ: R3→R和神經(jīng)顏色函數(shù)cφ: R3→R3表示的完整對(duì)象表面進(jìn)行優(yōu)化,其中θ和φ表示神經(jīng)函數(shù)的學(xué)習(xí)參數(shù)。
這兩個(gè)函數(shù)形成一個(gè)神經(jīng)輻射場(chǎng),可以使用3D體三維函數(shù)的渲染圖像進(jìn)行優(yōu)化。另外,目標(biāo)表面直接由fθ定義,并作為其零水平集。為了約束曲面通過輸入點(diǎn),研究人員使用以下點(diǎn)云損失來鼓勵(lì)所述點(diǎn)的帶符號(hào)距離為零:
在每次迭代中,從傳感器角度渲染亮度場(chǎng)。每個(gè)渲染像素i與其期望的渲染不透明度和到表面的距離相關(guān)聯(lián)。研究人員使用輸入的不透明度和距離來約束優(yōu)化的表面,以匹配掩模和深度傳感器的觀測(cè)結(jié)果:
其中K是傳感器射線的數(shù)量。為了約束fθ形成有效的SDF,他們應(yīng)用了Eikonal損失正則:
其中Peik既包含p點(diǎn),又包含感興趣區(qū)域的均勻采樣點(diǎn)。盡管Lm、Ld、Lp和Leikonal會(huì)約束優(yōu)化表面以匹配傳感器捕獲的信息,但損失不會(huì)為深度傳感器無法捕獲的被遮擋缺失內(nèi)容提供任何信號(hào)。
為了補(bǔ)全表面的未觀察部分,需要語義先驗(yàn)。為此,團(tuán)隊(duì)利用輸入文本嵌入y和預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型Φ。目標(biāo)是使用Φ為未觀察到的部分提供語義先驗(yàn),這樣對(duì)象的任何渲染圖像都將與y兼容。
所以,研究人員使用輻射場(chǎng)渲染隨機(jī)物體視圖,并將SDS loss與嵌入y的輸入文本應(yīng)用于優(yōu)化fθ和cφ。最后,使用已知的世界平面來進(jìn)一步正則化表明:
其中Puniform是感興趣區(qū)域內(nèi)平面下均勻采樣的3D點(diǎn)的集合?倱p失為:
另外,為了使生成內(nèi)容與已有的部分觀測(cè)對(duì)象保持一致,需要對(duì)攝像頭采樣進(jìn)行謹(jǐn)慎處理。與使用SDS loss“從零開始”生成3D對(duì)象不同,團(tuán)隊(duì)開發(fā)了一個(gè)采樣攝像頭姿勢(shì)的“curriculum”。設(shè)C0 = (R0, t0)為深度傳感器的原始攝像頭對(duì)世界姿態(tài)。
為了保持C0相對(duì)于對(duì)象的滾轉(zhuǎn)角度,并防止渲染翻轉(zhuǎn)或不真實(shí)的旋轉(zhuǎn)圖像,定義相對(duì)于分割的世界平面C0的方位角和仰角偏差。具體來說,設(shè)nl∈S2為平面l的法線,定義方位角旋轉(zhuǎn)更新為Razimuth = R(nl, γazimuth)。
同樣,設(shè)a0為C0的歸一化主軸方向,用Relevation = R(nl×a0, γelevation)定義高程旋轉(zhuǎn)更新。假設(shè)原點(diǎn)位于對(duì)象的中心,則γazimuth和 γelevation度給出更新后的攝像頭:
在訓(xùn)練過程中,首先對(duì)從C0位姿開始的渲染圖像應(yīng)用SDS loss,然后逐漸增加偏差角度的采樣范圍,直到覆蓋整個(gè)對(duì)象。通過在深度傳感器角度渲染的圖像初始應(yīng)用SDS loss,首先優(yōu)化被觀察對(duì)象部分的顏色,使其與y一致。然后當(dāng)采樣范圍增大時(shí),相應(yīng)完成對(duì)象其余部分的顏色和幾何形狀。
實(shí)驗(yàn)證明了SDS-Complete可以從兩個(gè)真實(shí)世界的數(shù)據(jù)集生成具有不同形狀類型的一系列對(duì)象的補(bǔ)全:含有各種不完整真實(shí)世界深度攝像頭掃描的Redwood數(shù)據(jù)集;以及激光雷達(dá)掃描的KITTI數(shù)據(jù)集。對(duì)于所述兩種情況,團(tuán)隊(duì)提出的解決方案都優(yōu)于最先進(jìn)的方法。
Redwood數(shù)據(jù)集域內(nèi)比較
Redwood數(shù)據(jù)集域外比較
KITTI數(shù)據(jù)集
可以觀察到,團(tuán)隊(duì)提出的方法有能力在域內(nèi)和域外對(duì)象保持一致的性能,而其他方法對(duì)OOD對(duì)象生成的補(bǔ)全表現(xiàn)出不可預(yù)測(cè)性,并且偏離預(yù)期的形狀,導(dǎo)致性能較差。
為了證明方法中每個(gè)組成部分的重要性,上圖展示了消融研究。可以看出,如果沒有SDS loss,模型就無法理解對(duì)象的特征,比如椅子有四條腿和一個(gè)筆直的背面。如果沒有SDF表示,就不可能直接在表面上應(yīng)用點(diǎn)云約束,這導(dǎo)致追蹤部分輸入的能力較差。最后可以看到,與隨機(jī)攝像頭采樣相比,團(tuán)隊(duì)的攝像頭采樣““curriculum”能夠保持生成內(nèi)容與現(xiàn)有傳感器測(cè)量值的一致性,從而提高了補(bǔ)全度。
當(dāng)然,團(tuán)隊(duì)指出,限制所述方法的主要因素是由于GPU內(nèi)存限制而造成低分辨率圖像的SDS loss的應(yīng)用,而這需要大量的采樣視圖。另外,SDF模型初始化為球體,所以無法很好地處理具有其他形狀對(duì)象。
總的來說,英偉達(dá)和巴伊蘭大學(xué)的研究人員提出了利用文本到2D預(yù)訓(xùn)練模型來重建各種對(duì)象的3D點(diǎn)云補(bǔ)全方法SDS-Complete。為了適應(yīng)點(diǎn)云使用的SDS loss,他們合并了一個(gè)SDF表示,并將表面約束在輸入點(diǎn)上。他們成功地將SDS-loss應(yīng)用于從新視圖呈現(xiàn)的圖像上,并通過將圖像與輸入的文本描述對(duì)齊來補(bǔ)全對(duì)象的缺失部分。
通過仔細(xì)處理攝像頭采樣,團(tuán)隊(duì)保持了補(bǔ)全部分與輸入捕獲部分的一致性。這使得系統(tǒng)即使在以前未考慮的對(duì)象上都能產(chǎn)生更好的結(jié)果。在未來,他們希望利用文本到3D的進(jìn)步來實(shí)現(xiàn)更高質(zhì)量的補(bǔ)全。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。