合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    斯坦福炒蝦機(jī)器人原班人馬新作!最強(qiáng)大腦Gemini加持,機(jī)器人炫技導(dǎo)航玩出新花樣

    2024年07月12日 14:48:01   來源:新智元公眾號

      斯坦福炒蝦機(jī)器人團(tuán)隊時隔半年再出新作,谷歌最強(qiáng)Gemini1.5Pro加持,Mobility VLA讓機(jī)器人在836平方米的辦公室里輕松導(dǎo)航。

      還記得年初爆火的斯坦福炒蝦機(jī)器人嗎?

      時隔半年,原班人馬聯(lián)合谷歌研究人員,重磅推出全新機(jī)器人自主導(dǎo)航的基礎(chǔ)模型——Mobility VLA。

      與以往不同的是,新架構(gòu)得到了谷歌迄今為止最強(qiáng)Gemini1.5Pro大模型的加持。

      Gemini1.5Pro不僅擁有100k長上下文,還具備了強(qiáng)大的多模態(tài)能力。給機(jī)器人安上「最強(qiáng)大腦」,可想而知,用在RT-2機(jī)器人身上有多么無敵。

      通過觀看9000平方英尺谷歌辦公室視頻之后,RT-2機(jī)器人建立起了對整個環(huán)境感知的概念。

      接下來,就是讓RT-2炫技的時刻了。

      首先,讓RT-2帶自己去一個能畫東西的地方。

      戴著一個可愛的的黃色領(lǐng)結(jié)機(jī)器人回應(yīng)道,「好的,給我一分鐘,讓我用Gemini稍加思考」。

      不一會兒功夫,它就把人類帶到一塊墻壁大小的白板前。

      然后,它再次收到新的命令,按照白板上指示的路線圖,抵達(dá)「藍(lán)色區(qū)域」。

      RT-2再次思考了片刻,然后走了很長一段路,最終來到了機(jī)器人測試區(qū)。

      不僅如此,研究人員主動帶領(lǐng)RT-2參觀了Lewis的辦公桌,以及臨時辦公桌區(qū)域之后,再要求RT-2帶路。

      可見,RT-2有著強(qiáng)大的記憶能力,能夠準(zhǔn)確識別位置。

      50條指令,完成率90%

      RT-2能夠流暢完成以上任務(wù)的奧秘就在于,利用Genimi訓(xùn)練機(jī)器人的導(dǎo)航系統(tǒng)。

      具體做法是,拍攝指定區(qū)域(如家庭或辦公空間)的視頻導(dǎo)覽,讓Gemini1.5Pro加持的機(jī)器人「觀看」視頻以了解環(huán)境。

      接下來,利用Mobility VLA將環(huán)境理解和常識推理能力結(jié)合起來。

      然后,機(jī)器人可以根據(jù)觀察和學(xué)習(xí)到的情況,對書寫和語音的指令以及手勢做出反應(yīng)。

      例如,在用戶展示一部手機(jī)并詢問「在哪里可以充電」后,機(jī)器人會引導(dǎo)用戶找到電源插座。

      DeepMind表示,在一定空間內(nèi),用Gemini驅(qū)動的機(jī)器人,在發(fā)出50多條用戶指令后,完成指令成功率高達(dá)90%。

      研究人員還發(fā)現(xiàn),Gemini1.5Pro能讓機(jī)器人規(guī)劃如何完成導(dǎo)航以外的指令。

      例如,一位小哥桌上擺放著兩排喝光了的肥宅快樂水罐子,還想再來一瓶,于是向機(jī)器人詢問他最喜歡的飲料是否有貨。

      研究小組說,Gemini指引機(jī)器人應(yīng)該導(dǎo)航到冰箱,檢查是否有可樂,然后返回用戶處報告結(jié)果。

      DeepMind表示,團(tuán)隊將進(jìn)一步研究這些機(jī)器人反饋的結(jié)果。

      目前,機(jī)器人處理這些指令需要10-30秒的時間,對于實際應(yīng)用來說太慢了,在響應(yīng)速度方面仍有提升空間。

      Mobility VLA

      在導(dǎo)航研究領(lǐng)域,一個難以實現(xiàn)的目標(biāo)是構(gòu)建一個能夠理解自然語言和圖像等多模態(tài)指令,并執(zhí)行有效導(dǎo)航的智能體。

      為了達(dá)成這一目標(biāo),研究人員提出了一類廣泛應(yīng)用的導(dǎo)航任務(wù)——帶有演示路線的多模態(tài)指令導(dǎo)航(Multimodal Instruction Navigation with demonstration Tours,MINT)。

      在這種任務(wù)中,環(huán)境信息通過預(yù)先錄制的演示視頻提供。

      為了解決MINT任務(wù),研究人員進(jìn)一步提出了一種分層的視覺-語言-行動(Vision-Language-Action,VLA)導(dǎo)航策略——Mobility VLA。它結(jié)合了長上下文VLMs的環(huán)境理解和常識推理能力,以及基于拓?fù)鋱D的強(qiáng)大低層導(dǎo)航策略。

      其中,高層策略使用長上下文VLM,將演示路線視頻和多模態(tài)用戶指令作為輸入,在演示視頻中找到目標(biāo)幀。接下來,低層策略利用目標(biāo)幀和離線構(gòu)建的拓?fù)鋱D,在每個時間步生成機(jī)器人動作。

      在一個836平方米的真實環(huán)境中的評估結(jié)果表明,Mobility VLA在以前未解決的多模態(tài)指令上,具有很高的端到端成功率。(例如,「我應(yīng)該把這個放在哪里?」同時拿著一個塑料箱)

      如圖1所示,Mobility VLA是一種分層導(dǎo)航策略,包含在線和離線兩個部分。

      離線階段,會從演示路線(N,F(xiàn))中生成一個拓?fù)鋱DG。在線上,高層策略會使用演示路線和多模態(tài)用戶指令(d,I)來找到導(dǎo)航目標(biāo)幀的索引g。

      接下來,低層策略會利用拓?fù)鋱D、當(dāng)前相機(jī)觀測O和目標(biāo)幀索引g,為機(jī)器人在每個時間步生成一個路徑點動作a,以便機(jī)器人執(zhí)行。

      首先需要的是環(huán)境演示路線,這個可以由人類用戶通過遠(yuǎn)程操作提供,或者只需在環(huán)境中行走時用智能手機(jī)錄制視頻即可。

      然后,Mobility VLA會離線構(gòu)建一個拓?fù)鋱DG=(V, E),其中每個頂點vi∈V對應(yīng)于演示路線視頻(F, N)中的幀fi。

      通過使用COLMAP這個現(xiàn)成的結(jié)構(gòu)-從-運動(structure-from-motion)管線來確定每幀的近似六自由度(6-Degree-of-Freedom)相機(jī)姿態(tài),并將其存儲在頂點中。

      接下來,如果目標(biāo)頂點「在源頂點前面」(距離源頂點的姿態(tài)小于90度)并且在2米以內(nèi),則向G中添加一個有向邊。

      與傳統(tǒng)的導(dǎo)航管線相比(例如,先映射環(huán)境,再識別可通行區(qū)域,最后構(gòu)建PRM),撲圖方法要簡單得多,因為它能根據(jù)游覽軌跡捕捉環(huán)境的一般連通性。

      使用長上下文多模態(tài)VLM進(jìn)行高層目標(biāo)查找

      在在線執(zhí)行過程中,高層策略利用VLMs的常識推理能力,從演示路線中識別出符合各種多模態(tài)、口語化且通常模糊的用戶指令的導(dǎo)航目標(biāo)。

      為此,研究人員準(zhǔn)備了一個由交錯文本和圖像組成的提示P(F,N,d,I)。

      以下是表1中關(guān)于多模態(tài)用戶指令「我應(yīng)該把這個放在哪里?」的具體P示例:

      此時,VLM會返回一個整數(shù)形式的目標(biāo)幀索引g。

      使用拓?fù)鋱D實現(xiàn)低層目標(biāo)到達(dá)

      一旦高層策略識別出目標(biāo)幀索引g,低層策略(算法1)就會接管,并在每個時間步生成一個路徑點動作(公式1)。

      對于每個時間步,使用一個實時的分層視覺定位系統(tǒng),來基于當(dāng)前的相機(jī)觀測O,來估計機(jī)器人的姿態(tài)T和最近的起始頂點vs∈G。

      這個定位系統(tǒng)會根據(jù)全局描述符找到拓?fù)鋱DG中的k個最近候選幀,然后通過PnP計算出機(jī)器人的姿態(tài)T。

      接下來,通過Dijkstra算法(第9行)在拓?fù)鋱D上找到從起始頂點vs到目標(biāo)頂點vg(即目標(biāo)幀索引g對應(yīng)的頂點)之間的最短路徑S。

      最后,低層策略會返回一個路徑點動作,該動作只是路徑S中下一個頂點v1相對于當(dāng)前姿態(tài)T的位移∆x,∆y和旋轉(zhuǎn)角度∆θ(第10行)。

      實驗

      為了探究Mobility VLA的性能,研究人員針對以下三個問題進(jìn)行了實驗設(shè)計。

      RQ1:Mobility VLA在現(xiàn)實世界的MINT中表現(xiàn)如何?

      RQ2:Mobility VLA是否因為使用了長上下文VLM而優(yōu)于其他方案?

      RQ3:拓?fù)鋱D是否必要?VLM能否直接生成動作?

      演示路線:通過使用游戲手柄遠(yuǎn)程操作機(jī)器人來收集演示路線。所有走廊都從相反方向走了兩次。最終的路線大約16分鐘長(每秒1幀,共948幀),并且在路線中添加了「每個人的臨時辦公桌」和「Lewis的辦公桌」的敘述,分別在5:28和7:14幀,以實現(xiàn)個性化導(dǎo)航。

      多模態(tài)用戶指令:收集了4個類別共57條用戶指令。包括:20條無須推理的指令(RF),15條需要推理的指令(RR),12條關(guān)于小物件的指令(SO),以及10條多模態(tài)指令(MM)。

      RQ1:Mobility VLA在真實環(huán)境中強(qiáng)大的端到端性能

      - 極高的端到端成功率

      表2顯示,Mobility VLA 在大多數(shù)用戶指令類別中具有高端到端導(dǎo)航成功率,包括以前難以實現(xiàn)的需要推理和多模態(tài)指令,并且還具有合理的SPL(成功率加權(quán)路徑長度)。

      然而,在小物件類別中的成功率顯著較低。

      最后,Mobility VLA 成功地在演示路線中加入了個性化敘述。在響應(yīng)基本相同但來自不同用戶的指令時,它能夠正確地導(dǎo)航到不同的位置。

      - 穩(wěn)健的低層目標(biāo)到達(dá)能力

      表2還顯示了Mobility VLA在現(xiàn)實世界中低級目標(biāo)到達(dá)策略的穩(wěn)健性,其成功率達(dá)到了100%。

      值得注意的是,演示路線是在實驗前幾個月錄制的,當(dāng)時許多物體、家具和光照條件都與實驗時不同。

      - 大規(guī)模仿真確認(rèn)高端到端成功率

      為了進(jìn)一步探索端到端性能,研究人員利用仿真來擴(kuò)大評估數(shù)量。

      具體來說,通過使用NeRF創(chuàng)建辦公室環(huán)境的高保真仿真重建,并針對20個語言指令任務(wù)進(jìn)行評估,每個任務(wù)有50個隨機(jī)起始姿態(tài)。

      實驗結(jié)果顯示,高層目標(biāo)找到率為90%,低層目標(biāo)到達(dá)率為100%,總共成功執(zhí)行了900次端到端操作。

      - 使用手機(jī)導(dǎo)航進(jìn)行家庭環(huán)境的泛化

      為了展示Mobility VLA的通用性和易用性,研究人員在一個真實的類家庭環(huán)境中進(jìn)行了概念驗證實驗。其中,演示是通過Google Pixel6手機(jī)錄制的。

      結(jié)果顯示,成功率為100%,SPL為0.87。這表明Mobility VLA:

      1. 無論在什么環(huán)境下都表現(xiàn)良好;

      2. 極易于部署。(用戶只需使用手機(jī)錄制環(huán)境導(dǎo)航,上傳給機(jī)器人后即可開始下達(dá)命令)

      研究人員表示,這種通用性和易用性在機(jī)器人導(dǎo)航中是前所未見的。

      RQ2:長上下文多模態(tài)VLM在高層目標(biāo)尋找方面更優(yōu)

      - Mobility VLA優(yōu)于其他方法

      表3顯示,Mobility VLA在高層目標(biāo)找到成功率方面顯著高于其他方法。

      鑒于其低層目標(biāo)到達(dá)成功率為100%,這些高層目標(biāo)找到成功率也代表了端到端的整體成功率。

      - 使用長上下文VLM處理高幀率導(dǎo)航視頻是成功的關(guān)鍵

      表4顯示,隨著視頻幀率的降低,高層目標(biāo)找到的成功率也隨之下降。(因為較低的幀率會錯過重要的導(dǎo)航目標(biāo)幀)

      此外,在比較最先進(jìn)的VLM時,只有上下文長度高達(dá)1M token的Gemini1.5Pro,才取得了令人滿意的成功率。

      圖3展示了,在給出「我想要更多這個」的多模態(tài)指令和桌子上幾個可樂罐的圖片時,Mobility VLA能夠正確識別出包含冰箱的幀,并引導(dǎo)用戶前往。

      而基于CLIP的檢索方法則找到一個包含水瓶和一些雜物的桌子區(qū)域,認(rèn)為其最接近完整指令圖像,因為使用Owl-ViT很難從指令圖像中提取出「用戶想要什么」。

      GPT-4o錯誤地嘗試找到最接近指令圖像的幀,而GPT-4V因無法找到包含飲料的幀而拒絕給出幀號。

      最后,純文本方法無法理解「這個」是指可樂罐還是辦公室環(huán)境,因為它僅依賴于指令圖像的文字說明。

      RQ3:拓?fù)鋱D對成功至關(guān)重要

      - 拓?fù)鋱D對導(dǎo)航成功至關(guān)重要

      表5展示了Mobility VLA與直接提示VLM輸出路徑點動作相比,在模擬中的端到端表現(xiàn)。

      0%的端到端成功率表明,如果沒有拓?fù)鋱D,Gemini1.5Pro無法在零樣本(Zero-shot)情況下導(dǎo)航機(jī)器人。而且,Gemini1.5API需要在每次推理調(diào)用時上傳所有948張圖像,導(dǎo)致每步運行時間高達(dá)26秒,而機(jī)器人僅移動1米。

      相比之下,Mobility VLA的高層VLM需要花費10-30秒找到目標(biāo)索引,然后機(jī)器人使用低層拓?fù)鋱D導(dǎo)航到目標(biāo),從而形成一個高度穩(wěn)健且高效(每步0.19秒)的MINT解算系統(tǒng)。

      谷歌的十年血淚史

      「機(jī)器人時代已經(jīng)到來,AI的下一波浪潮將是物理AI,機(jī)器人將日益融入我們的日常生活中,一切都將機(jī)器人化!

      老黃在6月的演講中已經(jīng)預(yù)判了未來人形機(jī)器人發(fā)展的大好前景。

      炫酷的賽博朋克風(fēng)人形機(jī)器人正在吸引亞馬遜、谷歌、Nvidia和微軟等巨頭科技公司的密切關(guān)注和數(shù)億元的投資。

      馬斯克也將特斯拉的未來押注在機(jī)器人上,預(yù)測機(jī)器人Optimus「擎天柱」可能會把市值推向25億美元。

      「或許未來不到十年內(nèi),人們就可以給父母買一個機(jī)器人作為生日禮物了。」

      馬斯克此話一出,想到自己頂著烈日取外賣、辛辛苦苦做家務(wù)或者滿世界找鑰匙的你是不是感覺腰桿一松?

      其實,谷歌的機(jī)器人制造并不是一路順利。

      早在2012到2013年間,谷歌就一口氣收購了包括波士頓動力在內(nèi)的11家機(jī)器人公司。

      當(dāng)時,正是安卓系統(tǒng)創(chuàng)始人Andy Rubin在管理谷歌機(jī)器人產(chǎn)品線,意識到機(jī)器人發(fā)展前途無限的谷歌試圖加速AI機(jī)器人的商業(yè)布局。

      在當(dāng)時以軟件見長的谷歌在并不擅長的硬件領(lǐng)域,選擇用收購的方式來最大程度整合技術(shù)資源。

      谷歌也一度認(rèn)為,只要有了硬件基礎(chǔ),再加以最拿手的軟件一結(jié)合,就能解決機(jī)器人領(lǐng)域的技術(shù)壁壘。

      然而現(xiàn)實運作中卻殘酷地發(fā)現(xiàn),機(jī)器人的運行準(zhǔn)確度遠(yuǎn)遠(yuǎn)達(dá)不到要求。

      比如你是一位公司大老板,一位成熟技工工作準(zhǔn)確率能達(dá)到98%,而機(jī)器人只有不到90%。

      這時你會選擇雇傭一位成熟技工還是購買昂貴且易出錯的機(jī)器人,并再雇傭一個人監(jiān)督調(diào)整機(jī)器人的工作?

      當(dāng)前機(jī)器人的準(zhǔn)確度可以達(dá)到80%-90%,為了最后的10%投入大量資金和人力,卻看不到回報。

      Andy Rubin爆出丑聞后離開了谷歌,當(dāng)初收購的企業(yè)也分崩離析,波士頓更是以低于當(dāng)時收購估值三倍的價格賣出。

      由此可見,軟件和硬件設(shè)施的制造以及兩者的結(jié)合,成為機(jī)器人制作領(lǐng)域最為頭疼的難題。

      那么,在AI大模型熱潮之下,這是否會為機(jī)器人制造帶來曙光?有學(xué)習(xí)能力的機(jī)器人能否實現(xiàn)?

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。