首頁 > 企業(yè)IT頻道 > 人工智能

斯坦福炒蝦機(jī)器人原班人馬新作！最強(qiáng)大腦Gemini加持，機(jī)器人炫技導(dǎo)航玩出新花樣

2024年07月12日 14:48:01 來源：新智元公眾號

　　斯坦福炒蝦機(jī)器人團(tuán)隊(duì)時(shí)隔半年再出新作，谷歌最強(qiáng)Gemini1.5Pro加持，Mobility VLA讓機(jī)器人在836平方米的辦公室里輕松導(dǎo)航。

　　還記得年初爆火的斯坦福炒蝦機(jī)器人嗎?

　　時(shí)隔半年，原班人馬聯(lián)合谷歌研究人員，重磅推出全新機(jī)器人自主導(dǎo)航的基礎(chǔ)模型——Mobility VLA。

　　與以往不同的是，新架構(gòu)得到了谷歌迄今為止最強(qiáng)Gemini1.5Pro大模型的加持。

　　Gemini1.5Pro不僅擁有100k長上下文，還具備了強(qiáng)大的多模態(tài)能力。給機(jī)器人安上「最強(qiáng)大腦」，可想而知，用在RT-2機(jī)器人身上有多么無敵。

　　通過觀看9000平方英尺谷歌辦公室視頻之后，RT-2機(jī)器人建立起了對整個(gè)環(huán)境感知的概念。

　　接下來，就是讓RT-2炫技的時(shí)刻了。

　　首先，讓RT-2帶自己去一個(gè)能畫東西的地方。

　　戴著一個(gè)可愛的的黃色領(lǐng)結(jié)機(jī)器人回應(yīng)道，「好的，給我一分鐘，讓我用Gemini稍加思考」。

　　不一會兒功夫，它就把人類帶到一塊墻壁大小的白板前。

　　然后，它再次收到新的命令，按照白板上指示的路線圖，抵達(dá)「藍(lán)色區(qū)域」。

　　RT-2再次思考了片刻，然后走了很長一段路，最終來到了機(jī)器人測試區(qū)。

　　不僅如此，研究人員主動帶領(lǐng)RT-2參觀了Lewis的辦公桌，以及臨時(shí)辦公桌區(qū)域之后，再要求RT-2帶路。

　　可見，RT-2有著強(qiáng)大的記憶能力，能夠準(zhǔn)確識別位置。

　　50條指令，完成率90%

　　RT-2能夠流暢完成以上任務(wù)的奧秘就在于，利用Genimi訓(xùn)練機(jī)器人的導(dǎo)航系統(tǒng)。

　　具體做法是，拍攝指定區(qū)域(如家庭或辦公空間)的視頻導(dǎo)覽，讓Gemini1.5Pro加持的機(jī)器人「觀看」視頻以了解環(huán)境。

　　接下來，利用Mobility VLA將環(huán)境理解和常識推理能力結(jié)合起來。

　　然后，機(jī)器人可以根據(jù)觀察和學(xué)習(xí)到的情況，對書寫和語音的指令以及手勢做出反應(yīng)。

　　例如，在用戶展示一部手機(jī)并詢問「在哪里可以充電」后，機(jī)器人會引導(dǎo)用戶找到電源插座。

　　DeepMind表示，在一定空間內(nèi)，用Gemini驅(qū)動的機(jī)器人，在發(fā)出50多條用戶指令后，完成指令成功率高達(dá)90%。

　　研究人員還發(fā)現(xiàn)，Gemini1.5Pro能讓機(jī)器人規(guī)劃如何完成導(dǎo)航以外的指令。

　　例如，一位小哥桌上擺放著兩排喝光了的肥宅快樂水罐子，還想再來一瓶，于是向機(jī)器人詢問他最喜歡的飲料是否有貨。

　　研究小組說，Gemini指引機(jī)器人應(yīng)該導(dǎo)航到冰箱，檢查是否有可樂，然后返回用戶處報(bào)告結(jié)果。

　　DeepMind表示，團(tuán)隊(duì)將進(jìn)一步研究這些機(jī)器人反饋的結(jié)果。

　　目前，機(jī)器人處理這些指令需要10-30秒的時(shí)間，對于實(shí)際應(yīng)用來說太慢了，在響應(yīng)速度方面仍有提升空間。

　　Mobility VLA

　　在導(dǎo)航研究領(lǐng)域，一個(gè)難以實(shí)現(xiàn)的目標(biāo)是構(gòu)建一個(gè)能夠理解自然語言和圖像等多模態(tài)指令，并執(zhí)行有效導(dǎo)航的智能體。

　　為了達(dá)成這一目標(biāo)，研究人員提出了一類廣泛應(yīng)用的導(dǎo)航任務(wù)——帶有演示路線的多模態(tài)指令導(dǎo)航(Multimodal Instruction Navigation with demonstration Tours，MINT)。

　　在這種任務(wù)中，環(huán)境信息通過預(yù)先錄制的演示視頻提供。

　　為了解決MINT任務(wù)，研究人員進(jìn)一步提出了一種分層的視覺-語言-行動(Vision-Language-Action，VLA)導(dǎo)航策略——Mobility VLA。它結(jié)合了長上下文VLMs的環(huán)境理解和常識推理能力，以及基于拓?fù)鋱D的強(qiáng)大低層導(dǎo)航策略。

　　其中，高層策略使用長上下文VLM，將演示路線視頻和多模態(tài)用戶指令作為輸入，在演示視頻中找到目標(biāo)幀。接下來，低層策略利用目標(biāo)幀和離線構(gòu)建的拓?fù)鋱D，在每個(gè)時(shí)間步生成機(jī)器人動作。

　　在一個(gè)836平方米的真實(shí)環(huán)境中的評估結(jié)果表明，Mobility VLA在以前未解決的多模態(tài)指令上，具有很高的端到端成功率。(例如，「我應(yīng)該把這個(gè)放在哪里?」同時(shí)拿著一個(gè)塑料箱)

　　如圖1所示，Mobility VLA是一種分層導(dǎo)航策略，包含在線和離線兩個(gè)部分。

　　離線階段，會從演示路線(N，F(xiàn))中生成一個(gè)拓?fù)鋱DG。在線上，高層策略會使用演示路線和多模態(tài)用戶指令(d，I)來找到導(dǎo)航目標(biāo)幀的索引g。

　　接下來，低層策略會利用拓?fù)鋱D、當(dāng)前相機(jī)觀測O和目標(biāo)幀索引g，為機(jī)器人在每個(gè)時(shí)間步生成一個(gè)路徑點(diǎn)動作a，以便機(jī)器人執(zhí)行。

　　首先需要的是環(huán)境演示路線，這個(gè)可以由人類用戶通過遠(yuǎn)程操作提供，或者只需在環(huán)境中行走時(shí)用智能手機(jī)錄制視頻即可。

　　然后，Mobility VLA會離線構(gòu)建一個(gè)拓?fù)鋱DG=(V， E)，其中每個(gè)頂點(diǎn)vi∈V對應(yīng)于演示路線視頻(F， N)中的幀fi。

　　通過使用COLMAP這個(gè)現(xiàn)成的結(jié)構(gòu)-從-運(yùn)動(structure-from-motion)管線來確定每幀的近似六自由度(6-Degree-of-Freedom)相機(jī)姿態(tài)，并將其存儲在頂點(diǎn)中。

　　接下來，如果目標(biāo)頂點(diǎn)「在源頂點(diǎn)前面」(距離源頂點(diǎn)的姿態(tài)小于90度)并且在2米以內(nèi)，則向G中添加一個(gè)有向邊。

　　與傳統(tǒng)的導(dǎo)航管線相比(例如，先映射環(huán)境，再識別可通行區(qū)域，最后構(gòu)建PRM)，撲圖方法要簡單得多，因?yàn)樗芨鶕?jù)游覽軌跡捕捉環(huán)境的一般連通性。

　　使用長上下文多模態(tài)VLM進(jìn)行高層目標(biāo)查找

　　在在線執(zhí)行過程中，高層策略利用VLMs的常識推理能力，從演示路線中識別出符合各種多模態(tài)、口語化且通常模糊的用戶指令的導(dǎo)航目標(biāo)。

　　為此，研究人員準(zhǔn)備了一個(gè)由交錯(cuò)文本和圖像組成的提示P(F，N，d，I)。

　　以下是表1中關(guān)于多模態(tài)用戶指令「我應(yīng)該把這個(gè)放在哪里?」的具體P示例:

　　此時(shí)，VLM會返回一個(gè)整數(shù)形式的目標(biāo)幀索引g。

　　使用拓?fù)鋱D實(shí)現(xiàn)低層目標(biāo)到達(dá)

　　一旦高層策略識別出目標(biāo)幀索引g，低層策略(算法1)就會接管，并在每個(gè)時(shí)間步生成一個(gè)路徑點(diǎn)動作(公式1)。

　　對于每個(gè)時(shí)間步，使用一個(gè)實(shí)時(shí)的分層視覺定位系統(tǒng)，來基于當(dāng)前的相機(jī)觀測O，來估計(jì)機(jī)器人的姿態(tài)T和最近的起始頂點(diǎn)vs∈G。

　　這個(gè)定位系統(tǒng)會根據(jù)全局描述符找到拓?fù)鋱DG中的k個(gè)最近候選幀，然后通過PnP計(jì)算出機(jī)器人的姿態(tài)T。

　　接下來，通過Dijkstra算法(第9行)在拓?fù)鋱D上找到從起始頂點(diǎn)vs到目標(biāo)頂點(diǎn)vg(即目標(biāo)幀索引g對應(yīng)的頂點(diǎn))之間的最短路徑S。

　　最后，低層策略會返回一個(gè)路徑點(diǎn)動作，該動作只是路徑S中下一個(gè)頂點(diǎn)v1相對于當(dāng)前姿態(tài)T的位移∆x，∆y和旋轉(zhuǎn)角度∆θ(第10行)。

　　實(shí)驗(yàn)

　　為了探究Mobility VLA的性能，研究人員針對以下三個(gè)問題進(jìn)行了實(shí)驗(yàn)設(shè)計(jì)。

　　RQ1:Mobility VLA在現(xiàn)實(shí)世界的MINT中表現(xiàn)如何?

　　RQ2:Mobility VLA是否因?yàn)槭褂昧碎L上下文VLM而優(yōu)于其他方案?

　　RQ3:拓?fù)鋱D是否必要?VLM能否直接生成動作?

　　演示路線:通過使用游戲手柄遠(yuǎn)程操作機(jī)器人來收集演示路線。所有走廊都從相反方向走了兩次。最終的路線大約16分鐘長(每秒1幀，共948幀)，并且在路線中添加了「每個(gè)人的臨時(shí)辦公桌」和「Lewis的辦公桌」的敘述，分別在5:28和7:14幀，以實(shí)現(xiàn)個(gè)性化導(dǎo)航。

　　多模態(tài)用戶指令:收集了4個(gè)類別共57條用戶指令。包括:20條無須推理的指令(RF)，15條需要推理的指令(RR)，12條關(guān)于小物件的指令(SO)，以及10條多模態(tài)指令(MM)。

　　RQ1:Mobility VLA在真實(shí)環(huán)境中強(qiáng)大的端到端性能

　　- 極高的端到端成功率

　　表2顯示，Mobility VLA 在大多數(shù)用戶指令類別中具有高端到端導(dǎo)航成功率，包括以前難以實(shí)現(xiàn)的需要推理和多模態(tài)指令，并且還具有合理的SPL(成功率加權(quán)路徑長度)。

　　然而，在小物件類別中的成功率顯著較低。

　　最后，Mobility VLA 成功地在演示路線中加入了個(gè)性化敘述。在響應(yīng)基本相同但來自不同用戶的指令時(shí)，它能夠正確地導(dǎo)航到不同的位置。

　　- 穩(wěn)健的低層目標(biāo)到達(dá)能力

　　表2還顯示了Mobility VLA在現(xiàn)實(shí)世界中低級目標(biāo)到達(dá)策略的穩(wěn)健性，其成功率達(dá)到了100%。

　　值得注意的是，演示路線是在實(shí)驗(yàn)前幾個(gè)月錄制的，當(dāng)時(shí)許多物體、家具和光照條件都與實(shí)驗(yàn)時(shí)不同。

　　- 大規(guī)模仿真確認(rèn)高端到端成功率

　　為了進(jìn)一步探索端到端性能，研究人員利用仿真來擴(kuò)大評估數(shù)量。

　　具體來說，通過使用NeRF創(chuàng)建辦公室環(huán)境的高保真仿真重建，并針對20個(gè)語言指令任務(wù)進(jìn)行評估，每個(gè)任務(wù)有50個(gè)隨機(jī)起始姿態(tài)。

　　實(shí)驗(yàn)結(jié)果顯示，高層目標(biāo)找到率為90%，低層目標(biāo)到達(dá)率為100%，總共成功執(zhí)行了900次端到端操作。

　　- 使用手機(jī)導(dǎo)航進(jìn)行家庭環(huán)境的泛化

　　為了展示Mobility VLA的通用性和易用性，研究人員在一個(gè)真實(shí)的類家庭環(huán)境中進(jìn)行了概念驗(yàn)證實(shí)驗(yàn)。其中，演示是通過Google Pixel6手機(jī)錄制的。

　　結(jié)果顯示，成功率為100%，SPL為0.87。這表明Mobility VLA:

　　1. 無論在什么環(huán)境下都表現(xiàn)良好;

　　2. 極易于部署。(用戶只需使用手機(jī)錄制環(huán)境導(dǎo)航，上傳給機(jī)器人后即可開始下達(dá)命令)

　　研究人員表示，這種通用性和易用性在機(jī)器人導(dǎo)航中是前所未見的。

　　RQ2:長上下文多模態(tài)VLM在高層目標(biāo)尋找方面更優(yōu)

　　- Mobility VLA優(yōu)于其他方法

　　表3顯示，Mobility VLA在高層目標(biāo)找到成功率方面顯著高于其他方法。

　　鑒于其低層目標(biāo)到達(dá)成功率為100%，這些高層目標(biāo)找到成功率也代表了端到端的整體成功率。

　　- 使用長上下文VLM處理高幀率導(dǎo)航視頻是成功的關(guān)鍵

　　表4顯示，隨著視頻幀率的降低，高層目標(biāo)找到的成功率也隨之下降。(因?yàn)檩^低的幀率會錯(cuò)過重要的導(dǎo)航目標(biāo)幀)

　　此外，在比較最先進(jìn)的VLM時(shí)，只有上下文長度高達(dá)1M token的Gemini1.5Pro，才取得了令人滿意的成功率。

　　圖3展示了，在給出「我想要更多這個(gè)」的多模態(tài)指令和桌子上幾個(gè)可樂罐的圖片時(shí)，Mobility VLA能夠正確識別出包含冰箱的幀，并引導(dǎo)用戶前往。

　　而基于CLIP的檢索方法則找到一個(gè)包含水瓶和一些雜物的桌子區(qū)域，認(rèn)為其最接近完整指令圖像，因?yàn)槭褂肙wl-ViT很難從指令圖像中提取出「用戶想要什么」。

　　GPT-4o錯(cuò)誤地嘗試找到最接近指令圖像的幀，而GPT-4V因無法找到包含飲料的幀而拒絕給出幀號。

　　最后，純文本方法無法理解「這個(gè)」是指可樂罐還是辦公室環(huán)境，因?yàn)樗鼉H依賴于指令圖像的文字說明。

　　RQ3:拓?fù)鋱D對成功至關(guān)重要

　　- 拓?fù)鋱D對導(dǎo)航成功至關(guān)重要

　　表5展示了Mobility VLA與直接提示VLM輸出路徑點(diǎn)動作相比，在模擬中的端到端表現(xiàn)。

　　0%的端到端成功率表明，如果沒有拓?fù)鋱D，Gemini1.5Pro無法在零樣本(Zero-shot)情況下導(dǎo)航機(jī)器人。而且，Gemini1.5API需要在每次推理調(diào)用時(shí)上傳所有948張圖像，導(dǎo)致每步運(yùn)行時(shí)間高達(dá)26秒，而機(jī)器人僅移動1米。

　　相比之下，Mobility VLA的高層VLM需要花費(fèi)10-30秒找到目標(biāo)索引，然后機(jī)器人使用低層拓?fù)鋱D導(dǎo)航到目標(biāo)，從而形成一個(gè)高度穩(wěn)健且高效(每步0.19秒)的MINT解算系統(tǒng)。

　　谷歌的十年血淚史

　　「機(jī)器人時(shí)代已經(jīng)到來，AI的下一波浪潮將是物理AI，機(jī)器人將日益融入我們的日常生活中，一切都將機(jī)器人化。」

　　老黃在6月的演講中已經(jīng)預(yù)判了未來人形機(jī)器人發(fā)展的大好前景。

　　炫酷的賽博朋克風(fēng)人形機(jī)器人正在吸引亞馬遜、谷歌、Nvidia和微軟等巨頭科技公司的密切關(guān)注和數(shù)億元的投資。

　　馬斯克也將特斯拉的未來押注在機(jī)器人上，預(yù)測機(jī)器人Optimus「擎天柱」可能會把市值推向25億美元。

　　「或許未來不到十年內(nèi)，人們就可以給父母買一個(gè)機(jī)器人作為生日禮物了。」

　　馬斯克此話一出，想到自己頂著烈日取外賣、辛辛苦苦做家務(wù)或者滿世界找鑰匙的你是不是感覺腰桿一松?

　　其實(shí)，谷歌的機(jī)器人制造并不是一路順利。

　　早在2012到2013年間，谷歌就一口氣收購了包括波士頓動力在內(nèi)的11家機(jī)器人公司。

　　當(dāng)時(shí)，正是安卓系統(tǒng)創(chuàng)始人Andy Rubin在管理谷歌機(jī)器人產(chǎn)品線，意識到機(jī)器人發(fā)展前途無限的谷歌試圖加速AI機(jī)器人的商業(yè)布局。

　　在當(dāng)時(shí)以軟件見長的谷歌在并不擅長的硬件領(lǐng)域，選擇用收購的方式來最大程度整合技術(shù)資源。