機(jī)器人ChatGPT來了，80億參數(shù)、前OpenAI人員經(jīng)數(shù)年打造

2024年03月13日 09:22:31 來源：機(jī)器之能公眾號

　　有了機(jī)器人基礎(chǔ)模型RFM-1，使用簡單英語就能指導(dǎo)機(jī)器人完成揀選工作。

　　機(jī)器人 AI 公司 Covariant CEO Peter Chen坐在一個聊天機(jī)器人面前，界面和 ChatGPT 的很像。

　　“給我看看你面前的運送箱，” 他輸入一段文本。然后出現(xiàn)了一段視頻，一個機(jī)械臂懸在一個裝有各種物品的運輸箱上——里面有一雙襪子、一管薯條和一個蘋果。

　　聊天機(jī)器人可以和你討論它看到的物品，也可以操縱它們。接著，Chen 要求它去抓一個水果，只見機(jī)械臂伸向蘋果，輕輕抓住蘋果后將它移到附近的另一個箱子里。

　　這個聊天機(jī)器人是該公司邁向“機(jī)器人 ChatGPT ”的重要一步。人們希望 AI 最終能夠解決長期以來的編程難，并讓它們做更多的事情。“在這一點上，說基礎(chǔ)模型是機(jī)器人技術(shù)的未來是沒有爭議的。” Chen 說。今天，Covariant 正式宣布推出機(jī)器人領(lǐng)域的通用基礎(chǔ)模型 RFM-1。因為整合了語言數(shù)據(jù)，Chen 用簡單英語就能指導(dǎo)機(jī)器人完成揀選工作。

　　更為重要的，“基礎(chǔ)模型”意味著 RFM-1可以接受更多數(shù)據(jù)的訓(xùn)練來完成更多的事情——目前都是關(guān)于倉庫操作的任務(wù)，因為這就是它所接受的訓(xùn)練，但它的功能可以通過向其提供更多數(shù)據(jù)加以擴(kuò)展。

　　“對于完成各種拾取和放置任務(wù)來說，現(xiàn)有的系統(tǒng)已經(jīng)足夠快速和靈活。” Covariant 聯(lián)合創(chuàng)始人、機(jī)器人學(xué)習(xí)先驅(qū) Pieter Abbeel 說，像 RFM-1這樣的模型可以讓機(jī)器人更流暢轉(zhuǎn)向新任務(wù)，走得更遠(yuǎn)。所謂遠(yuǎn)，既包括完成任何任務(wù)，也包括接入任何具身（不排除人形機(jī)器人），為全球數(shù)十億機(jī)器人提供動力。

　　野心不小的 Covariant 成立于2017年，由加州大學(xué)伯克利分校電氣工程和計算機(jī)科學(xué)教授 Pieter Abbeel 和他的三位華人博士生 Peter Chen、Rocky Duan 以及 Tianhao Zhang 創(chuàng)立。Abbeel 在2016年成為 OpenAI 早期員工，就在 Chen 加入該公司一個月后。Rocky Duan 也曾擔(dān)任 OpenAI 的研究科學(xué)家。后來他們離開 OpenAI，希望將 AI 從比特世界落地到真實世界，打造像人類一樣通過推理來適應(yīng)現(xiàn)實場景的機(jī)器人產(chǎn)品。

　　Covariant 核心技術(shù)是被稱為“ Covariant Brain ”的機(jī)器人大腦(軟件)，主要部署在工業(yè)機(jī)械臂上。最初他們專注于揀選用例是因為可以創(chuàng)造真實價值——客戶愿意掏腰包支付軟件費用。不過，對于 Covariant 來說，最令人興奮的部分是過去四年積累的大量現(xiàn)實世界的數(shù)據(jù)。

　　“完成我們正在做的事情的唯一方法是讓機(jī)器人部署到世界各地真實客戶現(xiàn)場，收集大量數(shù)據(jù)，”Abbeel 說。“這使我們能夠訓(xùn)練一個具有獨特能力的機(jī)器人基礎(chǔ)模型。”

　　與 ChatGPT、谷歌 Gemini 和其他聊天機(jī)器人一樣，機(jī)器人大軍收集的來自真實世界的數(shù)千萬條高質(zhì)量多模態(tài)機(jī)器人數(shù)據(jù)(包括靜態(tài)數(shù)據(jù)、動態(tài)視頻、關(guān)節(jié)角度、力讀數(shù)、吸盤強(qiáng)度等機(jī)器人操作中涉及關(guān)鍵數(shù)據(jù))，訓(xùn)練出80億參數(shù)規(guī)模的 RFM-1，可以幫助機(jī)器人更像人類一樣思考。

　　在真實世界中接觸到各種拾取和放置物體對象，比如易變形、被高度遮擋、材質(zhì)各異、不規(guī)則外形等，建立對真實物理世界的理解。

　　在不斷變化的倉庫環(huán)境中24/7全天候運行，系統(tǒng)也可以發(fā)現(xiàn)實驗室的環(huán)境中難以遇到的長尾邊緣案例。

　　我們可以將 RFM-1視為一個視頻生成器(就像 Sora )。輸入拾取某些物體的命令，系統(tǒng)會使用其訓(xùn)練數(shù)據(jù)(形狀、顏色、大小等)來識別面前與該描述最匹配的物體。然后生成視頻，預(yù)測自己試圖拿起這個物體時可能發(fā)生什么，并確定最佳行動方案。

　　下面是一個類似圖生視頻功能。輸入初始圖像(類似圖片提示)，RFM-1即可生成相應(yīng)的動態(tài)視頻。本質(zhì)上是一種模擬，以過去所有訓(xùn)練數(shù)據(jù)為基礎(chǔ)。

　　上面兩張圖都是作為輸入的初始圖片，對應(yīng)的下方動態(tài)內(nèi)容是模型的輸出，預(yù)測自己執(zhí)行這一任務(wù)會是什么樣子。

　　再比如，如果你想知道把一個圓柱體的物品放到傳送帶上會發(fā)生什么?也可以讓 RFM-1生成視頻，它能準(zhǔn)確顯示圓柱體翻轉(zhuǎn)和滾動的樣子(比 Sora 還精準(zhǔn))，因為在此之前它已經(jīng)看過很多東西被放置在不同傳送帶上后的狀態(tài)。這些視頻在倉庫業(yè)務(wù)中可能沒有實際用途，但它生動顯示出機(jī)器人對周圍世界的理解。

　　除了生成視頻的能力，現(xiàn)在任何人都可以在幾分鐘內(nèi)通過自然語言指導(dǎo)機(jī)器人執(zhí)行特定操作。

　　在遇到問題時，RFM-1甚至賦予機(jī)器人求助的本領(lǐng)。它們會將遭遇的困難直接告訴操作人員，并根據(jù)新建議嘗試完成任務(wù)。

　　值得注意的是，雖然 RFM-1最大亮點就是泛化能力，但泛化能力有限——“......它目前不能泛化到完全新的對象或情況。” Abbeel 表示。換句話說，如果你希望機(jī)器人拿起一顆螺絲并把它擰進(jìn)去，或者剝一塊生姜，這并不是一個真正有關(guān)拾取和放置問題，RFM-1暫時無能為力。目前， RFM-1也主要銷售給只做某些倉庫任務(wù)的公司。另外，就像ChatGPT也會有幻覺并出錯，RFM-1也有不理解要求并掉落東西的時候。錯誤的風(fēng)險與成本取決于場景，制造等領(lǐng)域的容錯率非常低。

　　不過，Abbeel 相信，只要有足夠的數(shù)據(jù)，有用的世界模擬將是可能的。“從現(xiàn)在起的5年里，我們建造的將是唯一一種任何人都會使用的模擬器。”這是一個更強(qiáng)大的模擬器，一個從建造之初就帶有碰撞檢測等元素的模擬器。所有這些東西都很難以任何方式構(gòu)建到你的物理引擎中，更不用說讓事物看起來像真實世界中的渲染器——“在某種意義上，我們正在走捷徑。”

　　為了擴(kuò)展 RFM-1的能力，以實現(xiàn)為“全球數(shù)十億機(jī)器人”提供動力的基礎(chǔ)模型的長期愿景，下一步是向它提供更多數(shù)據(jù)。“我們基本上已經(jīng)構(gòu)建了一個數(shù)據(jù)收集引擎，”Abbeel 說。“如果你愿意向我們提供不同類型的數(shù)據(jù)，我們也會收集這些數(shù)據(jù)。”

　　但是，這也會導(dǎo)致另一個局限性 —— 商業(yè)可行性。1X AI 副總裁 Eric Jang 提到過目前三種擴(kuò)張機(jī)器人部署規(guī)模的路子。除了耳熟能詳?shù)膫鹘y(tǒng)編程方法，一種是以特斯拉、1X、Figure.ai 這些人形機(jī)器人為代表的全棧路線(既做本體硬件也研發(fā)通用系統(tǒng)軟件)，另一種就是 Covariant 這種純軟的方式——建立一個“全能的大腦”控制機(jī)器人，每臺機(jī)器人的硬件供應(yīng)商都會來找你，要求接入“全能大腦”的 API 。

　　如果你能建立一個別人無法建立的模型，就能獲得豐厚的軟件利潤，每個人都給你他們的數(shù)據(jù)。GPT-4可能是最好的例子。但是，這種方法的缺點是涉及大量數(shù)據(jù)，你的硬件合作伙伴可能不想給你數(shù)據(jù)，他們的客戶也不想給你數(shù)據(jù)。

　　RFM-1目前尚未部署在人形機(jī)器人上，雖然它可以學(xué)習(xí)控制訓(xùn)練數(shù)據(jù)中沒有的類似硬件(甚至人形機(jī)器人?)，但一家人形機(jī)器人公司又會基于什么樣的動機(jī)愿意將數(shù)據(jù)共享給你呢?

　　對此，Chen 表示，“我們的宗旨是幫助他們走進(jìn)現(xiàn)實世界。”“我認(rèn)為，真的沒有多少公司擁有 AI，可以讓他們的機(jī)器人在生產(chǎn)環(huán)境中真正自主。如果他們想要強(qiáng)大、能夠幫助他們進(jìn)入現(xiàn)實世界的 AI，我們確實是他們的最佳選擇。”

　　也就是說，雖然每個機(jī)器人公司都可以單獨訓(xùn)練自己的模型，但對于任何試圖實現(xiàn)與現(xiàn)實交互操作的模型來說，其性能可能遠(yuǎn)不如使用 RFM-1。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信