有了機(jī)器人基礎(chǔ)模型RFM-1,使用簡單英語就能指導(dǎo)機(jī)器人完成揀選工作。
機(jī)器人 AI 公司 Covariant CEO Peter Chen坐在一個聊天機(jī)器人面前,界面和 ChatGPT 的很像。
“給我看看你面前的運送箱,” 他輸入一段文本。然后出現(xiàn)了一段視頻,一個機(jī)械臂懸在一個裝有各種物品的運輸箱上——里面有一雙襪子、一管薯條和一個蘋果。
聊天機(jī)器人可以和你討論它看到的物品,也可以操縱它們。接著,Chen 要求它去抓一個水果,只見機(jī)械臂伸向蘋果,輕輕抓住蘋果后將它移到附近的另一個箱子里。
這個聊天機(jī)器人是該公司邁向“機(jī)器人 ChatGPT ”的重要一步。人們希望 AI 最終能夠解決長期以來的編程難,并讓它們做更多的事情。“在這一點上,說基礎(chǔ)模型是機(jī)器人技術(shù)的未來是沒有爭議的。” Chen 說。今天,Covariant 正式宣布推出機(jī)器人領(lǐng)域的通用基礎(chǔ)模型 RFM-1。因為整合了語言數(shù)據(jù),Chen 用簡單英語就能指導(dǎo)機(jī)器人完成揀選工作。
更為重要的,“基礎(chǔ)模型”意味著 RFM-1可以接受更多數(shù)據(jù)的訓(xùn)練來完成更多的事情——目前都是關(guān)于倉庫操作的任務(wù),因為這就是它所接受的訓(xùn)練,但它的功能可以通過向其提供更多數(shù)據(jù)加以擴(kuò)展。
“對于完成各種拾取和放置任務(wù)來說,現(xiàn)有的系統(tǒng)已經(jīng)足夠快速和靈活。” Covariant 聯(lián)合創(chuàng)始人、機(jī)器人學(xué)習(xí)先驅(qū) Pieter Abbeel 說,像 RFM-1這樣的模型可以讓機(jī)器人更流暢轉(zhuǎn)向新任務(wù),走得更遠(yuǎn)。所謂遠(yuǎn),既包括完成任何任務(wù),也包括接入任何具身(不排除人形機(jī)器人),為全球數(shù)十億機(jī)器人提供動力。
野心不小的 Covariant 成立于2017年,由加州大學(xué)伯克利分校電氣工程和計算機(jī)科學(xué)教授 Pieter Abbeel 和他的三位華人博士生 Peter Chen、Rocky Duan 以及 Tianhao Zhang 創(chuàng)立。Abbeel 在2016年成為 OpenAI 早期員工,就在 Chen 加入該公司一個月后。Rocky Duan 也曾擔(dān)任 OpenAI 的研究科學(xué)家。后來他們離開 OpenAI,希望將 AI 從比特世界落地到真實世界,打造像人類一樣通過推理來適應(yīng)現(xiàn)實場景的機(jī)器人產(chǎn)品。
Covariant 核心技術(shù)是被稱為“ Covariant Brain ”的機(jī)器人大腦(軟件),主要部署在工業(yè)機(jī)械臂上。最初他們專注于揀選用例是因為可以創(chuàng)造真實價值——客戶愿意掏腰包支付軟件費用。不過,對于 Covariant 來說,最令人興奮的部分是過去四年積累的大量現(xiàn)實世界的數(shù)據(jù)。
“完成我們正在做的事情的唯一方法是讓機(jī)器人部署到世界各地真實客戶現(xiàn)場,收集大量數(shù)據(jù),”Abbeel 說。“這使我們能夠訓(xùn)練一個具有獨特能力的機(jī)器人基礎(chǔ)模型。”
與 ChatGPT、谷歌 Gemini 和其他聊天機(jī)器人一樣,機(jī)器人大軍收集的來自真實世界的數(shù)千萬條高質(zhì)量多模態(tài)機(jī)器人數(shù)據(jù)(包括靜態(tài)數(shù)據(jù)、動態(tài)視頻、關(guān)節(jié)角度、力讀數(shù)、吸盤強(qiáng)度等機(jī)器人操作中涉及關(guān)鍵數(shù)據(jù)),訓(xùn)練出80億參數(shù)規(guī)模的 RFM-1,可以幫助機(jī)器人更像人類一樣思考。
在真實世界中接觸到各種拾取和放置物體對象,比如易變形、被高度遮擋、材質(zhì)各異、不規(guī)則外形等,建立對真實物理世界的理解。
在不斷變化的倉庫環(huán)境中24/7全天候運行,系統(tǒng)也可以發(fā)現(xiàn)實驗室的環(huán)境中難以遇到的長尾邊緣案例。
我們可以將 RFM-1視為一個視頻生成器(就像 Sora )。輸入拾取某些物體的命令,系統(tǒng)會使用其訓(xùn)練數(shù)據(jù)(形狀、顏色、大小等)來識別面前與該描述最匹配的物體。然后生成視頻,預(yù)測自己試圖拿起這個物體時可能發(fā)生什么,并確定最佳行動方案。
下面是一個類似圖生視頻功能。輸入初始圖像(類似圖片提示),RFM-1即可生成相應(yīng)的動態(tài)視頻。本質(zhì)上是一種模擬,以過去所有訓(xùn)練數(shù)據(jù)為基礎(chǔ)。
上面兩張圖都是作為輸入的初始圖片,對應(yīng)的下方動態(tài)內(nèi)容是模型的輸出,預(yù)測自己執(zhí)行這一任務(wù)會是什么樣子。
再比如,如果你想知道把一個圓柱體的物品放到傳送帶上會發(fā)生什么?也可以讓 RFM-1生成視頻,它能準(zhǔn)確顯示圓柱體翻轉(zhuǎn)和滾動的樣子(比 Sora 還精準(zhǔn)),因為在此之前它已經(jīng)看過很多東西被放置在不同傳送帶上后的狀態(tài)。這些視頻在倉庫業(yè)務(wù)中可能沒有實際用途,但它生動顯示出機(jī)器人對周圍世界的理解。
除了生成視頻的能力,現(xiàn)在任何人都可以在幾分鐘內(nèi)通過自然語言指導(dǎo)機(jī)器人執(zhí)行特定操作。
在遇到問題時,RFM-1甚至賦予機(jī)器人求助的本領(lǐng)。它們會將遭遇的困難直接告訴操作人員,并根據(jù)新建議嘗試完成任務(wù)。
值得注意的是,雖然 RFM-1最大亮點就是泛化能力,但泛化能力有限——“......它目前不能泛化到完全新的對象或情況。” Abbeel 表示。換句話說,如果你希望機(jī)器人拿起一顆螺絲并把它擰進(jìn)去,或者剝一塊生姜,這并不是一個真正有關(guān)拾取和放置問題,RFM-1暫時無能為力。目前, RFM-1也主要銷售給只做某些倉庫任務(wù)的公司。另外,就像ChatGPT也會有幻覺并出錯,RFM-1也有不理解要求并掉落東西的時候。錯誤的風(fēng)險與成本取決于場景,制造等領(lǐng)域的容錯率非常低。
不過,Abbeel 相信,只要有足夠的數(shù)據(jù),有用的世界模擬將是可能的。“從現(xiàn)在起的5年里,我們建造的將是唯一一種任何人都會使用的模擬器。”這是一個更強(qiáng)大的模擬器,一個從建造之初就帶有碰撞檢測等元素的模擬器。所有這些東西都很難以任何方式構(gòu)建到你的物理引擎中,更不用說讓事物看起來像真實世界中的渲染器——“在某種意義上,我們正在走捷徑。”
為了擴(kuò)展 RFM-1的能力,以實現(xiàn)為“全球數(shù)十億機(jī)器人”提供動力的基礎(chǔ)模型的長期愿景,下一步是向它提供更多數(shù)據(jù)。“我們基本上已經(jīng)構(gòu)建了一個數(shù)據(jù)收集引擎,”Abbeel 說。“如果你愿意向我們提供不同類型的數(shù)據(jù),我們也會收集這些數(shù)據(jù)。”
但是,這也會導(dǎo)致另一個局限性 —— 商業(yè)可行性。1X AI 副總裁 Eric Jang 提到過目前三種擴(kuò)張機(jī)器人部署規(guī)模的路子。除了耳熟能詳?shù)膫鹘y(tǒng)編程方法,一種是以特斯拉、1X、Figure.ai 這些人形機(jī)器人為代表的全棧路線(既做本體硬件也研發(fā)通用系統(tǒng)軟件),另一種就是 Covariant 這種純軟的方式——建立一個“全能的大腦”控制機(jī)器人,每臺機(jī)器人的硬件供應(yīng)商都會來找你,要求接入“全能大腦”的 API 。
如果你能建立一個別人無法建立的模型,就能獲得豐厚的軟件利潤,每個人都給你他們的數(shù)據(jù)。GPT-4可能是最好的例子。但是,這種方法的缺點是涉及大量數(shù)據(jù),你的硬件合作伙伴可能不想給你數(shù)據(jù),他們的客戶也不想給你數(shù)據(jù)。
RFM-1目前尚未部署在人形機(jī)器人上,雖然它可以學(xué)習(xí)控制訓(xùn)練數(shù)據(jù)中沒有的類似硬件(甚至人形機(jī)器人?),但一家人形機(jī)器人公司又會基于什么樣的動機(jī)愿意將數(shù)據(jù)共享給你呢?
對此,Chen 表示,“我們的宗旨是幫助他們走進(jìn)現(xiàn)實世界。”“我認(rèn)為,真的沒有多少公司擁有 AI,可以讓他們的機(jī)器人在生產(chǎn)環(huán)境中真正自主。如果他們想要強(qiáng)大、能夠幫助他們進(jìn)入現(xiàn)實世界的 AI,我們確實是他們的最佳選擇。”
也就是說,雖然每個機(jī)器人公司都可以單獨訓(xùn)練自己的模型,但對于任何試圖實現(xiàn)與現(xiàn)實交互操作的模型來說,其性能可能遠(yuǎn)不如使用 RFM-1。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。