首頁 > 云計(jì)算頻道 > 大模型

清華團(tuán)隊(duì)破解具身智能Scaling Law，GPT時(shí)刻在即！寧德時(shí)代聯(lián)創(chuàng)終于出手

2024年11月11日 14:25:32 來源：新智元公眾號(hào)

　　半年兩次大融資后，這家具身智能黑馬再次獲得融資!作為柏睿資本首次投資的具身智能企業(yè)，千尋智能不僅擁有出身自伯克利系聯(lián)創(chuàng)，在技術(shù)、硬件、商業(yè)化上，也讓人極有信心。

　　最近，我們意外發(fā)現(xiàn)，具身智能領(lǐng)域的明星初創(chuàng)公司千尋智能，悄悄完成了工商變更。

　　根據(jù)工商信息顯示，本輪融資由柏睿資本獨(dú)家投資。至此，千尋智已經(jīng)在半年多時(shí)間里獲得了三次大額融資，一躍成為具身智能領(lǐng)域明星公司之一。

　　值得一提的是，柏睿資本是寧德時(shí)代聯(lián)合創(chuàng)始人，副董事長李平創(chuàng)立的產(chǎn)業(yè)投資基金。

　　全國具身智能領(lǐng)域多家明星，為何首次下場便獨(dú)獨(dú)選中了千尋智能?

　　從下面這些demo中，便可窺見一斑。

　　仔細(xì)看，桌面上撒滿了五顏六色形狀各異的糖豆。如何將這些不同顏色和大小的物體進(jìn)行分類，可不是件容易的事。

　　只見，在極其強(qiáng)大的識(shí)別和精準(zhǔn)操作能力的加持下，千尋智能的機(jī)器人用靈巧的手指輕松地將糖豆捏起，并準(zhǔn)確地放入指定的碗里。

　　不僅如此，它還可以一手拿起桌上透明的玻璃杯，一手從滿滿一筐雞蛋中抓出一個(gè)并準(zhǔn)確無誤地放進(jìn)杯中。

　　甚至，它還能接過手中的文件并進(jìn)行裝訂，然后再交還給人類。

　　在這個(gè)過程中，AI基于視覺大模型的任務(wù)理解與規(guī)劃，實(shí)現(xiàn)了人機(jī)交互及協(xié)同作業(yè)。

　　繼續(xù)觀看

　　清華團(tuán)隊(duì)破解具身智能Scaling Law，GPT時(shí)刻在即!寧德時(shí)代聯(lián)創(chuàng)終于出手

　　具身智能行業(yè)，到底在卷什么

　　其實(shí)，如今的具身智能領(lǐng)域可謂是百花齊放，各種酷炫的演示demo層出不窮。但對(duì)于不懂的外行人來說，只能看個(gè)熱鬧，很難理解背后真正的技術(shù)邊界是怎么樣的。

　　同一個(gè)動(dòng)作，是提前編程好的，還是機(jī)器人自主完成的?機(jī)器人只能在特定的某個(gè)位置、某個(gè)光照做一件事，還是能夠真正泛化到各個(gè)條件、各個(gè)場景?

　　看似相差不多的demo下，背后的技術(shù)能力實(shí)則相差甚遠(yuǎn)。

　　不過，對(duì)于未來的技術(shù)走向，業(yè)界的認(rèn)知正在逐漸清晰——最核心的還是大腦的能力。

　　隨著時(shí)間的發(fā)展，可能再過一兩年，競爭就會(huì)回到這個(gè)本質(zhì)，因?yàn)槲ㄓ写竽X，才能決定具身智能能在什么場景落地。

　　目前，大語言模型賽道已經(jīng)接近后期，投資人開始關(guān)注回報(bào)的問題，但相比之下，機(jī)器人賽道可以說才剛剛開始。尤其涉及到軟硬結(jié)合，以及整套系統(tǒng)的復(fù)雜度，賽道周期顯然會(huì)更長。

　　在這樣的背景下，柏睿資本的此次下場，顯然是經(jīng)過了深思熟慮。

　　寧德時(shí)代聯(lián)創(chuàng)首次出手

　　自創(chuàng)立之初，柏睿資本就專注于人工智能、具身智能領(lǐng)域的發(fā)展，且一直非�？春眠@一技術(shù)將帶來的一系列變革。

　　具體到千尋智能，柏睿資本看重的正是其團(tuán)隊(duì)在AI、硬件、商業(yè)化三個(gè)方面的綜合優(yōu)勢(shì)。

　　首先，針對(duì)高陽在算法和模型方面的持續(xù)創(chuàng)新和產(chǎn)出能力，柏睿資本抱有極大的信心;其次，千尋智能的創(chuàng)始團(tuán)隊(duì)在硬件領(lǐng)域有著扎實(shí)的背景和積累;第三則是多達(dá)上百個(gè)場景、數(shù)萬臺(tái)機(jī)器人的商業(yè)化落地經(jīng)驗(yàn)。

　　作為柏睿資本投資的首家具身智能企業(yè)，千尋智能將借助柏睿資本和背后的產(chǎn)投資源，快速切入市場化落地并進(jìn)行具身智能泛化性作業(yè)驗(yàn)證，成為國內(nèi)首家實(shí)現(xiàn)具身智能商業(yè)化的公司。

　　把水壺里的水倒進(jìn)玻璃杯，并讓水位達(dá)到指定的刻度(實(shí)拍原速)

　　縱觀當(dāng)下機(jī)器人領(lǐng)域的現(xiàn)狀，各種技術(shù)的理論驗(yàn)證基本都已完成，但工程化卻還在起步階段。

　　怎樣一條途徑是最優(yōu)方案，率先做到在工程上可行?

　　從Physical Intelligence、Skild AI等優(yōu)秀的國外先行者身上，我們可以隱約窺見一條逼近真理的技術(shù)路徑。

　　端到端就是下一個(gè)前沿

　　最近，成立僅8個(gè)月的初創(chuàng)Physical Intelligence(Pi)發(fā)布了一款通用機(jī)器人基礎(chǔ)模型π0。

　　這個(gè)在8個(gè)機(jī)器人平臺(tái)上，完成訓(xùn)練的3B模型，能夠執(zhí)行各種靈巧的任務(wù)，包括洗衣服、收納整理......

　　與LLM不同的是，π0跨越了視覺、語言、動(dòng)作(VLA)，并通過訓(xùn)練機(jī)器人的具身經(jīng)驗(yàn)中，獲得物理智能。

　　它基于3B VLM完成的預(yù)訓(xùn)練，隨后又根據(jù)靈巧任務(wù)(洗衣服、組裝盒子、桌面任務(wù))進(jìn)行了微調(diào)。

　　VLM的優(yōu)勢(shì)在于能夠集成互聯(lián)網(wǎng)規(guī)模的語義知識(shí)和視覺理解，有助于動(dòng)作預(yù)測(cè)

　　Pi聯(lián)創(chuàng)之一，也是UC伯克利副教授Sergey Levine看到，如今的機(jī)器人是一種狹隘的專家系統(tǒng)。比如，工業(yè)機(jī)器人通過編程，在裝配線上同個(gè)地點(diǎn)進(jìn)行重復(fù)的工作。

　　即便是這樣簡單的行為，也需要耗費(fèi)大量的人工編程，更不用提在復(fù)雜環(huán)境(家庭等)中的應(yīng)用了。

　　有了大模型，就很容易讓機(jī)器人做到這點(diǎn)。然而這一切實(shí)現(xiàn)的前提是——數(shù)據(jù)。

　　就像人類可以憑借經(jīng)驗(yàn)快速學(xué)習(xí)新技能一樣，模型也僅需少量數(shù)據(jù)，就能適應(yīng)新的任務(wù)。

　　這便是π0的核心思想。

　　另一家由CMU大牛Deepak Pathak(博士出身是UC伯克利)創(chuàng)立的Skild AI，也遵循了同樣的技術(shù)路線。

　　他們打造出了一款能夠泛化的機(jī)器人基礎(chǔ)模型「Skild Brain」，背后用到的訓(xùn)練數(shù)據(jù)是競爭對(duì)手的1000倍，可以適用到任何機(jī)器人本體和任務(wù)中。

　　從以上伯克利系大牛們所做的研究來看，端到端架構(gòu)已成為具身智能的主要技術(shù)路線。

　　無獨(dú)有偶，國內(nèi)的千尋智能也在技術(shù)路線上與這兩家美國的具身智能頂尖初創(chuàng)，不謀而合。

　　在讀博士、博士后期間，千尋智能團(tuán)隊(duì)的首席科學(xué)家高陽，還曾與Sergey Levine和Pieter Abbeel教授展開深入合作。

　　尤其是，他們的模型可以在訓(xùn)練過程中，同時(shí)利用監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)、模擬學(xué)習(xí)等技術(shù)，并將Sim2Real數(shù)據(jù)作為補(bǔ)充。

　　結(jié)果就是，剛成立半年多的千尋智能，就已經(jīng)能實(shí)現(xiàn)業(yè)內(nèi)Top的靈巧手操作了。

　　伯克利系稱霸具身智能

　　毫不夸張地說，UC伯克利已被公認(rèn)為是最近這波具身智能浪潮的主要發(fā)源地。而Sergey、Pieter這些教授，是當(dāng)之無愧的機(jī)器人學(xué)習(xí)領(lǐng)域最近十年的領(lǐng)頭人。

　　同時(shí)，出身伯克利系的高徒們，如今已經(jīng)在各個(gè)相關(guān)領(lǐng)域散作滿天星，不斷推高業(yè)界前沿的技術(shù)水平。

　　比如，千尋智能聯(lián)合創(chuàng)始人高陽在攻讀計(jì)算機(jī)視覺博士學(xué)位期間，便是師從Trevor Darrell教授，和Deepak Pathak同組。

　　最近，高陽帶領(lǐng)團(tuán)隊(duì)發(fā)現(xiàn)了具身智能領(lǐng)域的「圣杯」——Data Scaling Laws，堪稱機(jī)器人的ChatGPT時(shí)刻。

　　而且，在CoRL2024上，這項(xiàng)研究榮獲X-Embodiment workshop最佳論文獎(jiǎng)!

　　這一方法讓機(jī)器人實(shí)現(xiàn)了真正的零樣本泛化，也就意味著無需任何微調(diào)，就能泛化到全新場景中，徹底改變了開發(fā)通用機(jī)器人的方式。

　　就連谷歌DeepMind大牛Ted Xiao也對(duì)這項(xiàng)研究贊賞有加，稱其對(duì)機(jī)器人大模型時(shí)代具有里程碑意義。

　　這位具身智能領(lǐng)域大咖，有著怎樣的學(xué)術(shù)背景?

　　2014年，高陽獲得了清華計(jì)算機(jī)科學(xué)本科學(xué)位，師從國內(nèi)ML領(lǐng)域享有盛譽(yù)的著名學(xué)者朱軍教授。

　　在大二的時(shí)候，也正是深度學(xué)習(xí)(2012年)爆發(fā)之際，高陽做的了很多關(guān)于傳統(tǒng)ML的研究。

　　憑借出色的成績，他成為了計(jì)算機(jī)系的第二位大神。

　　到了大三，高陽拿到了去斯坦福做交換的暑期學(xué)習(xí)資格，導(dǎo)師是David L. Dill教授。

　　本科畢業(yè)前，得益于老師的推薦信，以及自身各方面優(yōu)異表現(xiàn)，高陽最終收獲了美國多所頂尖高校的offer。

　　面對(duì)這些同樣優(yōu)秀的學(xué)府，他決定親赴美國實(shí)地考察，做出最適合自己的選擇。

　　在走訪過程中，UC伯克利給他留下了深刻的印象。作為四大名校之一，這所學(xué)校具備了濃厚的學(xué)術(shù)氛圍。

　　再加上，自身專攻機(jī)器學(xué)習(xí)領(lǐng)域的原因，UC伯克利最適合不過了。

　　作為一名機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)生，他對(duì)UC伯克利格外青睞，很大程度上還因?yàn)橐I(lǐng)ML時(shí)代技術(shù)的Michael Jordan教授的存在。

　　原本初到伯克利時(shí)，高陽計(jì)劃跟隨Michael Jordan開展研究。然而，再參加了幾次他的組會(huì)，并與其學(xué)生交流后，他發(fā)現(xiàn)Michael研究方向與自己的與其有所差異。

　　因?yàn)�，Michael Jordan的工作更加偏重?cái)?shù)學(xué)理論，組會(huì)多圍繞數(shù)學(xué)公式推導(dǎo)，這與高陽所期待的實(shí)踐導(dǎo)向研究路徑不盡相同。

　　在探索其他可能性過程中，他意外接觸到了Trevor Darrell教授的研究組。

　　Trevor專注于計(jì)算機(jī)視覺領(lǐng)域，其魅力在于直觀性——可以清晰看到輸入的圖片，觀察神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程，并得到可視化結(jié)果。

　　值得一提的是，當(dāng)時(shí)深度學(xué)習(xí)的浪潮已經(jīng)持續(xù)了大約2年的時(shí)間，業(yè)界也普遍認(rèn)可了這項(xiàng)技術(shù)的卓越性。

　　也是基于這些原因，更加堅(jiān)定了高陽在這一方向上深耕的原因。

　　在他的博士生涯初期，跟隨Trevor教授做了很多在純視覺領(lǐng)域的研究。

　　直到博士二年級(jí)下學(xué)期開始，高陽的研究興趣發(fā)生了微妙的轉(zhuǎn)變。

　　這一轉(zhuǎn)變?cè)从冢瑢?shí)驗(yàn)室內(nèi)部一系列關(guān)于人類智能起源的深度探討。

　　而令他印象深刻的是CV圈里另一位大咖Jitendra Malik觀點(diǎn):他從進(jìn)化角度提出，人類智能本質(zhì)與靈巧的雙手密不可分。

　　正是因?yàn)閾碛辛司?xì)的手部動(dòng)作能力，人類才得以完成更為復(fù)雜的任務(wù)，反過來推動(dòng)了大腦的進(jìn)化，使得智力水平得以適應(yīng)更復(fù)雜的活動(dòng)需求。

　　再到貓狗之間對(duì)于人類指令理解力的差別，說明了狗的群居特性，使得它們溝通協(xié)調(diào)力強(qiáng)于貓。

　　最終，他們?cè)谥悄鼙举|(zhì)討論中，逐漸達(dá)成共識(shí):機(jī)器視覺的終極發(fā)展方向，應(yīng)該由具身智能體驅(qū)動(dòng)。

　　自然而然地，高陽開始將研究中心轉(zhuǎn)向了具身智能領(lǐng)域。

　　他認(rèn)為，具身智能與視覺、強(qiáng)化學(xué)習(xí)有著密切的聯(lián)系，這種聯(lián)系可以類比人類的認(rèn)知過程。

　　即通過視覺感知環(huán)境，理解周圍狀況，繼而做出相應(yīng)的行為。

　　基于這種認(rèn)識(shí)，高陽開始與Sergey Levine教授展開合作，深入去研究具身智能的形成機(jī)制。

　　得益于前期在計(jì)算機(jī)視覺領(lǐng)域的積累，在實(shí)際研究中，高陽能夠很好地將CV技術(shù)與RL結(jié)合起來，并交出了碩果累累的成績單。

　　在機(jī)器人研究領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議CoRL2024中，團(tuán)隊(duì)更是連中了4篇論文。

　　回到北美，如今頭部的具身智能創(chuàng)業(yè)公司，除了Figure AI之外，創(chuàng)始人都屬于伯克利系。

　　比如，Physical Intelligence的聯(lián)創(chuàng)Sergey Levine，便是UC伯克利電氣工程與計(jì)算機(jī)科學(xué)系的副教授。

　　Pi的另一位聯(lián)創(chuàng)Chelsea Finn，也是UC伯克利的博士。

　　Skild AI的聯(lián)創(chuàng)Deepak Pathak，同樣是在UC伯克利獲得的博士學(xué)位，師從國際計(jì)算機(jī)視覺大師Trevor Darrell教授(曾培養(yǎng)了包括賈揚(yáng)清在內(nèi)的多位視覺領(lǐng)域知名學(xué)者)。

　　隨后，Pathak繼續(xù)在UC伯克利做博士后研究，導(dǎo)師是機(jī)器人學(xué)習(xí)領(lǐng)域的頂尖學(xué)者Pieter Abbeel——擴(kuò)散模型(Sora、SD背后核心技術(shù))的提出者之一。

　　爆火AI搜索初創(chuàng)Perplexity AI的創(chuàng)始人Aravind Srinivas，以及前OpenAI聯(lián)創(chuàng)John Schulman，皆是他的學(xué)生。

　　博士研究期間，Pathak開發(fā)了一種向機(jī)器人灌輸「好奇心」方法。具體做法是，當(dāng)系統(tǒng)無法預(yù)測(cè)其行動(dòng)結(jié)果時(shí)，系統(tǒng)反而會(huì)因未知結(jié)果而獲得獎(jiǎng)勵(lì)。

　　這種方法驅(qū)使AI去探索更多場景，并收集更多數(shù)據(jù)。

　　其實(shí)回看2014到2016年這段時(shí)間，無論機(jī)器狗還是雙足機(jī)器人，在業(yè)內(nèi)的進(jìn)展都比較緩慢。

　　雖然當(dāng)時(shí)的人形機(jī)器人已經(jīng)可以跑酷、跳樁，但其中使用的技術(shù)棧其實(shí)非常傳統(tǒng)，是基于傳統(tǒng)的MPC、WPC這類手工控制器去做的。

　　也就是說，并不是基于機(jī)器學(xué)習(xí)這條路線。

　　在2017年左右，Pieter Abbeel和三個(gè)學(xué)生一起創(chuàng)立了Covariant(原名Embodied Intelligence)，可以說是體現(xiàn)了具身智能的縮影。

　　在當(dāng)年，大語言模型并沒有出現(xiàn)，因此即使這個(gè)公司早于時(shí)代，也依然像今天的非端到端自動(dòng)駕駛一樣，技術(shù)棧并沒有特別大的進(jìn)步。

　　而隨后大模型的出現(xiàn)，才終于讓具身智能的推理能力、多模態(tài)感知融合、自主學(xué)習(xí)和知識(shí)遷移能力等得到了顯著提升，翻開了全新的篇章。

　　如今，具身智能技術(shù)已經(jīng)走向了深度融合和迭代優(yōu)化的新階段。擁有技術(shù)領(lǐng)先性和應(yīng)用場景積累的企業(yè)，將迎來大展拳腳的機(jī)會(huì)。

　　而千尋智能，恰恰有著清晰的端到端技術(shù)路線，有頂尖人才、有應(yīng)用場景。

　　具身智能這盤大棋，接下來就看千尋智能如何交卷了。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

清華團(tuán)隊(duì)破解具身智能Scaling Law，GPT時(shí)刻在即！寧德時(shí)代聯(lián)創(chuàng)終于出手

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

專題

清華團(tuán)隊(duì)破解具身智能Scaling Law，GPT時(shí)刻在即！寧德時(shí)代聯(lián)創(chuàng)終于出手

擴(kuò)展閱讀

清華團(tuán)隊(duì)破解具身智能Scaling Law，GPT時(shí)刻在即！寧德時(shí)代聯(lián)創(chuàng)終于出手