李飛飛「數(shù)字表兄弟」破解機器人訓(xùn)練難題！零樣本sim2real成功率高達90%

2024年10月14日 15:12:28 來源：新智元公眾號

　　在用模擬環(huán)境訓(xùn)練機器人時，所用的數(shù)據(jù)與真實世界存在著巨大的差異。為此，李飛飛團隊提出「數(shù)字表親」，這種虛擬資產(chǎn)既具備數(shù)字孿生的優(yōu)勢，還能補足泛化能力的不足，并大大降低了成本。

　　如何有效地將真實數(shù)據(jù)擴展到模擬數(shù)據(jù)，進行機器人學(xué)習(xí)?

　　最近，李飛飛團隊提出一種「數(shù)字表親」的新方法，可以同時降低真實到模擬生成的成本，同時提高學(xué)習(xí)的普遍性。

　　目前，論文已被CORL2024接收。

　　你可能會問，什么是「數(shù)字表親」，有啥用呢?

　　讓我們把它跟數(shù)字孿生比較一下。

　　的確，數(shù)字孿生可以準(zhǔn)確地對場景進行建模，然而它的生成成本實在太昂貴了，而且還無法提供泛化功能。

　　而另一方面，數(shù)字表親雖然沒有直接模擬現(xiàn)實世界的對應(yīng)物，卻仍然能夠捕獲相似的幾何和語義功能。

　　這樣，它就大大降低了生成類似虛擬環(huán)境的成本，同時通過提供類似訓(xùn)練場景的分布，提高了從模擬到真實域遷移的魯棒性。

　　共同一作Tianyuan Dai表示，既然有免費的「數(shù)字表親」了，何必再去手工設(shè)計數(shù)字孿生?

　　亮眼的是，「數(shù)字表親」能同時實現(xiàn)——

　　單幅圖像變成交互式場景

　　全自動(無需注釋)

　　機器人策略在原始場景中的零樣本部署

　　簡單拍一張照片，就能搞定了

　　模擬數(shù)據(jù)難題:與現(xiàn)實環(huán)境差異過大

　　在現(xiàn)實世界中訓(xùn)練機器人，存在策略不安全、成本高昂、難以擴展等問題;相比之下，模擬數(shù)據(jù)是一種廉價且潛在無限的訓(xùn)練數(shù)據(jù)來源。

　　然而，模擬數(shù)據(jù)存在一個難以忽視的問題——與現(xiàn)實環(huán)境之間的語義和物理差異。

　　這些差異可以通過在數(shù)字孿生中進行訓(xùn)練來最小化，但數(shù)字孿生作為真實場景的虛擬復(fù)制品，同樣成本高昂且無法跨域泛化。

　　正是為了解決這些限制，論文提出了「數(shù)字表親」(digital cousion)的概念。

　　「數(shù)字表親」是一種虛擬資產(chǎn)或場景，與數(shù)字孿生不同，它不明確模擬現(xiàn)實世界的對應(yīng)物，但仍然展現(xiàn)類似的幾何和語義功能。

　　因此，數(shù)字表親既具備了數(shù)字孿生的優(yōu)勢，能夠補足現(xiàn)實數(shù)據(jù)的不足，同時降低了生成類似虛擬環(huán)境的成本，并能更好地促進跨域泛化。

　　具體而言，論文引入了一種自動創(chuàng)建數(shù)字表親(Automatic Creation of Digital Cousins，ACDC)的新方法，并提出了一個完全自動化的，從真實到模擬再到真實的流程，用于生成交互式場景和訓(xùn)練策略。

　　實驗結(jié)果發(fā)現(xiàn)，ACDC生成的數(shù)字表親場景能夠保留幾何和語義功能，訓(xùn)練出的策略也優(yōu)于數(shù)字孿生(90% vs.25%)，而且可以通過零樣本學(xué)習(xí)直接部署在原始場景中。

　　方法概述

　　與數(shù)字孿生不同，數(shù)字表親并不苛求在所有微小細節(jié)上都要重建給定場景，而是專注于保留更高級別的細節(jié)，例如空間關(guān)系和語義。

　　ACDC是一個完全自動化的端到端流程，從單個RGB圖像生成完全交互式的模擬場景，由三個連續(xù)步驟組成:

　　信息提取:首先，從輸入的RGB圖像中提取對象信息。

　　數(shù)字表親匹配:利用第一步提取的信息，結(jié)合預(yù)先準(zhǔn)備的3D模型資產(chǎn)數(shù)據(jù)集，為檢測到的每個對象匹配相應(yīng)的數(shù)字表親。

　　場景生成:對選擇的數(shù)字表親進行后處理并編譯在一起，生成一個物理上合理且完全交互式的模擬場景。

　　通過這三個步驟，ACDC能夠自動創(chuàng)建與輸入圖像語義相似但不完全相同的虛擬場景，為機器人策略訓(xùn)練提供多樣化的環(huán)境。

　　策略學(xué)習(xí)

　　構(gòu)建了一組數(shù)字表親后，就可以這些環(huán)境中訓(xùn)練機器人策略。

　　雖然這種方法適用于多種訓(xùn)練范式，例如強化學(xué)習(xí)或模仿學(xué)習(xí)，但本文選擇聚焦于于腳本演示(scripted demonstrations)的模仿學(xué)習(xí)，因為這種范式不需要人類演示，與完全自主化的ACDC流程更加適配。

　　為了能在模擬環(huán)境中自動實現(xiàn)演示的收集，作者首先實施了一組基于樣本的技能，包括Open(開)、 Close(關(guān))、 Pick(拿)和Place(放)四種。

　　雖然技能的種類數(shù)仍然有限，但已經(jīng)足夠收集各種日常任務(wù)的演示，例如對象重新排列和家具鉸接。

　　實驗

　　通過實驗，團隊回答了以下研究問題:

　　Q1:ACDC能否生成高質(zhì)量的數(shù)字表親場景?給定單張RGB圖像，ACDC能否捕捉原始場景中固有的高級語義和空間細節(jié)?

　　Q2:在原始的環(huán)境設(shè)置上評估時，在數(shù)字表親上訓(xùn)練的策略能否匹配數(shù)字孿生的性能?

　　Q3:在分布外設(shè)置上評估時，在數(shù)字表親上訓(xùn)練的策略是否表現(xiàn)出更強的穩(wěn)健性?

　　Q4:在數(shù)字表親上訓(xùn)練的策略能否實現(xiàn)零樣本的sim2real策略遷移?

　　通過ACDC進行場景重建

　　首先團隊需要論證的最重要的問題，就是ACDC能生成高質(zhì)量的數(shù)字表親場景嗎?

　　從表格中的數(shù)據(jù)來看，結(jié)果十分令人滿意。

　　以下是在sim-to-sim場景中對ABCD場景重建進行的定量和定性評估。

　　在sim2sim場景中對ACDC進行場景重建的定量和定性評估

　　評估指標(biāo)包括:

　　「Scale」:輸入場景中兩個對象邊界框之間的最大距離。

　　「Cat.」:正確分類對象占場景總對象總數(shù)的比例。

　　「Mod.」:正確建模對象占場景中對象總數(shù)的比例。

　　「L2Dist.」:輸入和重建場景中邊界框中心間歐幾里得距離的均值和標(biāo)準(zhǔn)差。

　　「Ori. Diff.」:每個中心對稱對象方向幅度差異的均值和標(biāo)準(zhǔn)差。

　　「Bbox IoU」:資產(chǎn)3D邊界框的交并比(IoU)。

　　以下是ACDC實景到模擬場景的重建結(jié)果。

　　在給定場景中，會顯示多個數(shù)字表親。

　　ACDC真實到模擬場景重建結(jié)果的定性評估，展示了為給定場景生成的多個數(shù)字表親

　　基于這些結(jié)果，研究者可以肯定地回答Q1了——

　　ACDC確實能夠保留輸入場景的語義和空間細節(jié)，從單張RGB圖像生成真實世界對象的數(shù)字表親，并能準(zhǔn)確定位和縮放以匹配原始場景。

　　sim2sim的策略學(xué)習(xí)

　　這部分的實驗主要是為了回答上述研究中的Q2和Q3，在3個任務(wù)上分析ACDC訓(xùn)練策略的能力，包括「開門」、「打開抽屜」和「收起碗」，每項任務(wù)都與數(shù)字孿生設(shè)置進行了對比。

　　不同設(shè)置中的總體成功率如下圖所示。

　　可以發(fā)現(xiàn)，在數(shù)字表親上訓(xùn)練的策略通�？梢云ヅ�，甚至優(yōu)于數(shù)字孿生的設(shè)置。

　　作者假設(shè)，由于數(shù)字表親的策略是在不同環(huán)境設(shè)置的數(shù)據(jù)上進行訓(xùn)練的，因此可以覆蓋廣泛的狀態(tài)空間，從而很好地推廣到原始數(shù)字孿生設(shè)置。

　　然而，在另一個極端，針對所有可行資產(chǎn)(All Assets)進行訓(xùn)練場的策略要比數(shù)字孿生差得多，這表明樸素的領(lǐng)域隨機化并不總是有用的。

　　此外，隨著DINO嵌入距離的增加，即評估設(shè)置與原始設(shè)置的差異逐漸增大，數(shù)字孿生的策略性能通常會出現(xiàn)成比例的顯著下降，但數(shù)字孿生策略整體表現(xiàn)更加穩(wěn)定，證明了在分布外設(shè)置上的魯棒性。

　　sim2real的策略學(xué)習(xí)

　　隨后，研究者對數(shù)字孿生和數(shù)字表親策略進行了零樣本現(xiàn)實世界評估。

　　任務(wù)是給宜家柜子上開門。

　　評估指標(biāo)就是成功率。

　　結(jié)果顯示，模擬結(jié)果平均超過50次試驗，真實結(jié)果平均超過20次試驗。

　　real2sim2real的場景生成和策略學(xué)習(xí)

　　無論是數(shù)字孿生還是數(shù)字表親，最終的落腳點還是要在真實環(huán)境中對比性能。

　　因此實驗的最后，團隊在完全真實(in-the-wild)的廚房場景中端到端地測試了完整的ACDC管道和自動化策略學(xué)習(xí)框架。

　　在經(jīng)過數(shù)字表親的專門模擬訓(xùn)練后，機器人可以成功打開廚房櫥柜，證明了ACDC方法遷移到真實環(huán)境中的有效性。

　　以下Demo展示了完全自動化的數(shù)字表親生成過程。

　　零樣本的sim2real策略遷移實驗表明，僅從上述生成的四個數(shù)字表親訓(xùn)練的模擬策略，可以直接遷移到相應(yīng)的真實廚房場景。

　　基于這些結(jié)果，研究者可以肯定地回答Q2、Q3和Q4了——

　　使用數(shù)字表親訓(xùn)練的策略，表現(xiàn)出了與在數(shù)字孿生上訓(xùn)練策略相當(dāng)?shù)姆植純?nèi)性能，以及更強的分布外魯棒性，并且可以實現(xiàn)零樣本從模擬到現(xiàn)實的策略遷移。

　　失敗案例

　　即使ACDC方法表現(xiàn)出了整體上的優(yōu)越性能，研究團隊也在實驗中觀察到了幾個失敗案例，例如:在打開柜子的任務(wù)中，機器人未能完全移動到把手所在位置——

　　或者移動時錯過把手——

　　即使正確找到了把手所在位置，也有可能手滑——

　　可以觀察到，ACDC經(jīng)常在以下幾種情況下陷入困境:

　　a. 高頻深度信息

　　b. 遮擋

　　c .語義類別差異

　　d. 缺乏相應(yīng)類別的資產(chǎn)

　　e. 除「位于頂部」之外的對象關(guān)系

　　前三個限制，與ACDC的參數(shù)化方式直接相關(guān)。

　　比如對于(a)，由于ACDC依賴于相對準(zhǔn)確的深度估計，來計算預(yù)測的對象3D邊界框，因此不準(zhǔn)確的深度圖可能會導(dǎo)致ACDC對物體模型的估計相應(yīng)較差。

　　原生深度傳感器在物體邊界附近可能難以產(chǎn)生準(zhǔn)確的讀數(shù)，這是因為深度圖在這些區(qū)域可能出現(xiàn)不連續(xù)性。當(dāng)物體具有許多精細邊界時(例如植物和柵欄)，這個問題會變得更加復(fù)雜。

　　此外，由于研究者依賴現(xiàn)成的基礎(chǔ)模型(DepthAnything-v2)來預(yù)測合成深度圖，因此也承襲了模型自身的一系列限制，例如對特殊物體或在不利的視覺條件下的預(yù)測較差。

　　結(jié)論

　　最終，研究者得出了以下結(jié)論。

　　ACDC是一個全自動化管線，能夠快速生成與單張真實世界RGB圖像相對應(yīng)的完全交互式數(shù)字表親場景。

　　研究發(fā)現(xiàn):

　　1. 魯棒性

　　在這些數(shù)字表親設(shè)置上訓(xùn)練的策略，比在數(shù)字孿生上訓(xùn)練的策略表現(xiàn)出更強的魯棒性。

　　為了進一步檢查數(shù)字表親對樸素域隨機化的相對影響，研究者根據(jù)其他基線在 DoorOpening任務(wù)上重新運行了sim2sim實驗

　　2.性能對比

　　領(lǐng)域內(nèi)性能:數(shù)字表親訓(xùn)練的策略與數(shù)字孿生訓(xùn)練的策略相當(dāng)。

　　領(lǐng)域外泛化:數(shù)字表親訓(xùn)練的策略展現(xiàn)出優(yōu)越的領(lǐng)域外泛化能力。

　　3. 零樣本學(xué)習(xí)

　　數(shù)字表親訓(xùn)練的策略能夠?qū)崿F(xiàn)零樣本從模擬到現(xiàn)實的策略遷移。

　　作者介紹

　　TianyuanDai

　　Tianyuan Dai本科畢業(yè)于香港科技大學(xué)，獲得了計算機科學(xué)和數(shù)學(xué)學(xué)士學(xué)位，目前在斯坦福攻讀碩士學(xué)位，隸屬于斯坦福SVL實驗室(Vision and Learning Lab)和PAIR研究小組(People， AI & Robots Group)，由李飛飛指導(dǎo)。

　　他的長期愿景是將人類對現(xiàn)實世界環(huán)境的理解融入到機器人算法中，使用數(shù)據(jù)驅(qū)動的方法幫助人們完成日常任務(wù);最近研究的重點是開發(fā)real2sim2real范式，以實現(xiàn)穩(wěn)健的操控策略學(xué)習(xí)(manipulation policy learning)。

　　Josiah Wong

　　Josiah Wong目前在斯坦福大學(xué)攻讀機械工程博士學(xué)位，導(dǎo)師是李飛飛，同樣在SVL和PAIR組工作。

　　此前，他在斯坦福大學(xué)獲得碩士學(xué)位，在加利福尼亞大學(xué)圣迭戈分校獲得學(xué)士學(xué)位。

　　他致力于利用仿真技術(shù)來拓展機器人操作能力，目標(biāo)是推動日常通用機器人的發(fā)展，從而改善我們的日常生活。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信