人形機器人的確定性在哪？

2024年09月06日 10:00:59 作者：思杭編輯|皮爺 來源：產(chǎn)業(yè)家

　　“具身智能注定會成為*價值的AI應用，未來還可能會改變我們與科技的交互方式。”

　　2024年5月，英國自動駕駛獨角獸Wayve完成了10.5億美元C輪融資，這也是英國史上*規(guī)模的AI融資，本次融資方除了老股東微軟，還有新入局的軟銀集團和英偉達。值得注意的是，上述正是Wayve聯(lián)合創(chuàng)始人兼CEO在完成融資當天寫下的一句話。

　　令人好奇的是，為什么一家自動駕駛公司要在融資當天提到具身智能，甚至還極為看好?不僅如此，仔細研究融資方還能發(fā)現(xiàn)，在不少具身智能公司里，都有英偉達的身影，比如年初的Figure。

　　實際上，從自動駕駛到具身智能，每一個前沿AI領域都少不了英偉達的參與。那么，自動駕駛與具身智能究竟有何關(guān)系?

　　如果說，“自動駕駛的存在是取代司機，那么具身智能的存在就是替代整個人類。”當然，這只是跟隨如今互聯(lián)網(wǎng)風格的一種狹隘理解。自動駕駛與具身智能的真正相似之處是，從技術(shù)到底層邏輯的相似。而一種更好的理解則是，既然2024是自動駕駛的商業(yè)化元年，那么同樣地，它也見證了具身智能的“元年”。

　　據(jù)南方都市報統(tǒng)計，從2023下半年至今，與具身智能概念相關(guān)的公司，已有12家實現(xiàn)融資。而更夸張的是，華為天才少年“稚暉君”辭職后創(chuàng)立的智元機器人，過去一年時間就完成6輪融資，估值一路飆升至70億元。

　　具身智能賽道的瘋狂還不止于此，從馬斯克到AI知名學者李飛飛，從英偉達、OpenAI甚至到國內(nèi)幾乎所有互聯(lián)網(wǎng)大廠，全部紛紛涌入具身智能賽道，用腳投票一致看好這個如今AI大模型加持下的機器人產(chǎn)業(yè)。

　　然而，這個看起來波濤的賽道，如今真的如此光明嗎?擺在它前方的，究竟是何種機遇和挑戰(zhàn)?

　　一

　　2024，機器人開始有了人的“身體”

　　回溯過去70多年人工智能的歷史長河中，有幾個極為關(guān)鍵的標志性事件，其中一件就發(fā)生在70年代的日本。1964年，日本早稻田大學教授加藤一郎開始潛心研究人工下肢，五年時間，世界上*個雙足機器人WABOT-1誕生。

　　這個當時行走一步要45秒，步伐也僅有10厘米左右的機器人馬上就引起了全世界的轟動，要知道，彼時的人工智能才剛剛起步，從操控到感知，一切都還處于探索初期。因此，WABOT-1的問世則也標志著整個人工智能發(fā)展史上的一個重要里程碑。

　　不僅如此，世界上*個雙足機器人在日本誕生后，對于抓住了先機的日本，汽車和電子制造業(yè)的崛起也隨之而來。而在機器人領域，日本更是占據(jù)了整個機器人產(chǎn)業(yè)的半壁江山。

　　盡管早在70年代人形機器人就有了“雛形”，然而從自然語言到操控、感知、決策等等人工智能領域的關(guān)鍵性技術(shù)都未有突破，這也導致在過去很長一段時間，關(guān)于人形機器人的發(fā)展也不得不按下暫停鍵。

　　而此后的機器人領域則開始圍繞著“非人形”機器人展開，比如工業(yè)場景里常見的機械臂�？梢哉f，由“ABB、庫卡KUKA、發(fā)那科FANUC和安川電機YASKAWA”組成的機器人“四大家族”，地位至今都難以撼動。

　　如果說當年，世界上*個人形機器人的誕生對后續(xù)的人工智能發(fā)展，發(fā)揮了至關(guān)重要的作用;那么今天，人工智能領域的重大突破，同時也讓停滯不前的“人形機器人”產(chǎn)業(yè)重新找回屬于自己的光環(huán)。

　　據(jù)不完全統(tǒng)計，在AI大模型風口上的2023年，單單是以“人形機器人”或“具身智能”概念入局的創(chuàng)業(yè)公司就有24家;而到了今年，截至2024年8月，這條賽道共聚集了29家創(chuàng)業(yè)公司。

　　在這其中，不僅有一年內(nèi)連續(xù)融資6次，估值達70億人民幣的智元機器人，更有不少被阿里、騰訊、華為、美團等“選中”的初創(chuàng)公司。

　　而在過去這一年，資本的瘋狂也再一次證明了人形機器人的“覺醒”：據(jù)IT桔子統(tǒng)計，2023年中國一級市場機器人行業(yè)融資金額達240億元，單筆十億元量級以上投資事件約4起。

　　在2024年世界人工智能大會上，一場“人形機器人盛宴”讓其火熱程度更加具像化。

　　而與此同時，在海外，這場盛宴則要更為壯觀，從特斯拉的“擎天柱”(Optimus)到今年3月刷屏的Figure AI，再到英偉達的人形機器人通用基礎模型GR00T，可以說，對于這些逐夢AI的硅谷科技企業(yè)而言，它們對人形機器人的追逐和野心，以及害怕錯過(FOMO)的焦慮，無一不暴露在這場盛宴之下。

　　同樣地，作為走在AI前沿的國內(nèi)科技企業(yè)，也并沒有人想錯過入局人形機器人的*時間點。

　　對此，一些自身有大模型能力的科技大廠，選擇的是投資，并以大模型賦能機器人的方式入局這一新賽道，如華為、百度、騰訊、阿里、字節(jié);甚至一些有硬件研發(fā)基礎的企業(yè)不惜重金自研入局，如科大訊飛、小米。

　　而另一些更聚焦實際場景的科技企業(yè)則是用投資的方式，更垂直、也更有針對性地為特定場景打造屬于他們的人形機器人，如美團、小米。

　　2023年，有鹿機器人聯(lián)合阿里云通義千問共同發(fā)布了具身智能大模型LPLM-10B;同年12月29日，人形機器人*股“優(yōu)必選”正式登陸港交所，騰訊成為優(yōu)必選*機構(gòu)股東。而就在最近，北京銀河通用機器人有限公司也完成了7億元的天使輪融資，其中投資方就包括了美團。

　　上述種種信號都在表明，在科技企業(yè)、創(chuàng)業(yè)公司、老牌機器人廠商等等參與者的合力之下，人形機器人正在一步步走向產(chǎn)業(yè)，走向有著千家萬戶的現(xiàn)實世界。

　　二

　　通用機器人之前：

　　人形機器人的形態(tài)之爭

　　從1970年的世界*人形機器人到以機器人四大家族為首的非人形機器人，再到今天重新覺醒的人形機器人，為什么一有“機會”就會發(fā)展人形機器人?而機器人又為何必須是“人形”?人形機器人的魅力究竟在哪?

　　對此，產(chǎn)業(yè)各界都給出了不同的解釋。更為感性的說法是，機器人的形態(tài)越像人，就越符合大眾對機器人的幻想，這也是為什么科幻電影中的機器人大多都與真人無異。

　　但如果站在更為理性和客觀的角度，機器人之所以是人形，實際上是為了更符合人類對一個全能、通用機器人的期待。UniXAI創(chuàng)始人兼CEO楊豐瑜告訴產(chǎn)業(yè)家，“我更愿意將人形機器人稱之為通用的具身智能機器人。當機器人進入到L5階段，只需一個通用的機器人即可完成掃地、洗衣服、取快遞等全部家務。”

　　因此，一個更好的理解便是，無論是目前的人形機器人，還是具身智能，他們都是為了走向未來的通用機器人。而至于機器人的形態(tài)，究竟是人形還是非人形，是雙足還是輪式，目前業(yè)界可以分為三個派別，分別是激進派、溫和派和保守派。

　　首先是身為激進派的馬斯克，在6月的特斯拉股東大會上，其宣稱將于明年量產(chǎn)1000臺雙足人形機器人Optimus。

　　相比之下，國內(nèi)一眾機器人創(chuàng)業(yè)者則較為溫和。比如，銀河通用所發(fā)布的GALBOT就是一個身高173CM的輪式雙臂人形機器人，再比如，上半年剛成立的UniXAI，已發(fā)布并即將量產(chǎn)的Wanda也同樣是輪式雙臂機器人;而與此同時，據(jù)產(chǎn)業(yè)家了解，雙方公司都在默默研發(fā)雙足人形機器人，并正在著手解決相關(guān)技術(shù)難題。

　　而對于機器人的形態(tài)問題，也有不少“保守派”不認可或不看好雙足。

　　在這其中，最為典型的兩個代表，一個是獵戶星空，其董事長兼CEO傅盛認為，“雙足機器人目前很難成功商業(yè)化，如果落地到產(chǎn)線上工作，沒有三五年根本不可能。”另一個則是知名人形機器人公司Sanctuary AI，其創(chuàng)始人Geordie Rise則是最近在X平臺上發(fā)文稱，“幾乎所有工作都更適合在有輪子的環(huán)境下完成”，甚至又補充道，“雙足人形機器人是愚蠢的”。

　　然而，在如今這場機器人的形態(tài)之爭下，無論是雙足還是輪式，大家的終點都只有一個，即通用機器人。

　　三

　　從技術(shù)路線到場景，具身智能企業(yè)“摸著石頭過河”

　　簡單來理解通用機器人，就是既會做飯、洗衣服，又會打掃衛(wèi)生、取快遞，而這也就意味著機器人需要能夠更好地掌握真實的物理世界。

　　“在此之前，上一代的機器人并沒有環(huán)境感知能力，其單純依靠外圍設備的節(jié)拍信號驅(qū)動來執(zhí)行固定運動，也沒有智能可言;而未來的人形機器人則一定是具身大模型+通用的人形機器人，兩者缺一不可。”銀河通用向產(chǎn)業(yè)家表示。

　　而這也就詮釋了為什么具身智能，或人形機器人的風口出現(xiàn)在如今大模型的浪潮之下。

　　從整個人工智能的發(fā)展角度來看，AI大模型為機器人領域所帶來的是更強大的感知能力。在銀河通用看來，這種強感知能力是建立在“大參數(shù)模型和巨量數(shù)據(jù)展現(xiàn)出來的智能，它能將長任務拆解成短任務，再將短任務拆解成機器人的運動”。

　　在機器人領域，一個*的難點便是缺乏與物理世界的真實數(shù)據(jù)，而得不到這些數(shù)據(jù)，就無從對機器人進行訓練;即使是互聯(lián)網(wǎng)上得到的信息，在過去也很難根據(jù)這些信息進行擴展，并使機器人更好地理解世界。

　　而大模型則很好地解決了這一問題。在楊豐瑜看來，如今的大語言模型已經(jīng)實現(xiàn)了視覺語言上的智能涌現(xiàn)，這就意味著，通過互聯(lián)網(wǎng)上的數(shù)據(jù)，機器人的感知已經(jīng)出現(xiàn)了相當強的泛化，因此能夠更好地理解真實的物理世界。

　　實際上，除了具身智能，被大模型隨之帶火的還有自動駕駛。像開篇提到的英國自動駕駛獨角獸Wayve在融資當天，不惜花大量筆墨描繪了一個屬于“具身智能”的未來，類似的言論也同樣出現(xiàn)在不少機器人公司的內(nèi)部。

　　其中，銀河通用在對具身智能的詮釋中就提到，“具身智能是一個相對寬泛的概念，像自動駕駛、掃地機器人，嚴格意義上來說都屬于具身智能，當然也包括我們今天在做的擁有具身大模型，能主動干活的人形機器人。”

　　此外，關(guān)于自動駕駛與具身智能的相似性，UniX AI創(chuàng)始人楊豐瑜則進行了更具象的類比，“如今的具身智能，其實更像2015、2016年的自動駕駛，仍然處于缺少真實數(shù)據(jù)的階段。而如果以L0-L5幾個階段來詮釋，目前大多數(shù)具身智能公司都在L0到L4的過程中，而到真正的L5則還有一段距離。具體而言，L4狀態(tài)指大多數(shù)場景下，機器人可以完成某個指定動作;而L5則指任意場景下，機器人可以完成某一動作�，F(xiàn)階段，大家所缺少的便是真實數(shù)據(jù)。”

　　但自動駕駛和具身智能也都各有各的難點，前者的難點在于安全性，而后者的難點則在于數(shù)據(jù)獲取。

　　為解決具身智能目前的種種挑戰(zhàn)，目前市面上不同企業(yè)內(nèi)部的技術(shù)路線都各不相同。從具身智能公司的創(chuàng)始團隊背景就得以窺見，從大廠機器人實驗室到智駕公司，甚至連從AI*院校畢業(yè)的創(chuàng)業(yè)者都來自不同科系，可以說，在這個仍發(fā)展初期的具身智能賽道上，各路大神在各顯神通。

　　無法達成共識的還不僅是技術(shù)路線，對于機器人的落地場景，尤其是未來走向通用機器人的人形機器人，究竟誰能更快地實現(xiàn)商業(yè)化，或哪些更適合當下的具身智能機器人?目前都還并沒有定論。

　　“目前整個行業(yè)，大家都還處于摸索PMF的階段，很難說B端和C端哪條路更容易或有利于商業(yè)化。”楊豐瑜向產(chǎn)業(yè)家說到。

　　的確如此，如果說在過去非人形機器人階段，商業(yè)化較為成熟的場景是生活服務、智能倉儲和智能制造。那么對于如今的具身智能的人形機器人階段，則既有面向B端的，也有從C端入手的。

　　比如，具身智能公司UniX AI即將發(fā)布的輪式雙臂機器人Wanda面向的就是家庭場景。而之所以先選擇C端，有幾方面考慮。在楊豐瑜看來，首先，針對具身智能缺乏真實數(shù)據(jù)的特點，如果能用脫敏處理從用戶端獲取更廣泛的真實數(shù)據(jù)，從而形成數(shù)據(jù)飛輪，從這一角度來講則可以極大地增強機器人的泛化能力。

　　然而，對于處于發(fā)展初期的當下，究竟何種場景更有利于具身智能發(fā)展還是未知數(shù)，因此UniX也并沒有完全將場景限定在C端。另一方面，相較于B端“強替代”的場景，C端的容錯率也更高。

　　通常來講，在B端，企業(yè)選擇是否要大規(guī)模使用某類機器人則要根據(jù)人工成本進行對比，因此這也決定了B端更復雜的商業(yè)邏輯。

　　然而，毋庸置疑的是，從機器人產(chǎn)品本身出發(fā)，不同于C端場景，B端場景并不會如此多樣化。與此同時，這也意味著，在缺乏數(shù)據(jù)的當下，B端機器人的技術(shù)難度也相對較低。

　　對此，目前不少具身智能公司都選擇從toB出發(fā)。最為代表的則是銀河通用，在他們看來，“現(xiàn)階段先落地在B端場景是更好的選擇，當技術(shù)積累到一定的程度，再推動其走進家庭。”據(jù)銀河通用機器人透露，目前GALBOT計劃在商超、車廠、工業(yè)、物流、科研等領域進行更深入的場景驗證和應用落地。

　　可以看到，從相差各異的技術(shù)路線，到難決高下的落地場景，如今具身智能企業(yè)都正在探尋更適合自己的路。

　　四

　　人形機器人的「確定性」在哪?

　　英國自動駕駛獨角獸Wayve之所以成立自動駕駛公司，其更深層次的意義實際上是實現(xiàn)“具身智能”的愿景。

　　“從理論上，如果說自動駕駛的感知和決策已經(jīng)達到成熟，那么具身智能的技術(shù)成熟度也沒有問題。”具身智能領域的某業(yè)內(nèi)人士告訴產(chǎn)業(yè)家。

　　但如果說，2024是自動駕駛的商業(yè)化元年，那么，具身智能的“確定性”又在哪?

　　目前看來，從機器人形態(tài)到技術(shù)路線，從落地場景再到商業(yè)模式，關(guān)于具身智能的一切似乎都充滿了不確定性。

　　甚至更夸張地講，在過去很長一段時間，究竟什么是人形機器人，什么是通用機器人?又該如何定義具身智能?概念都還并不清晰。而實際上，業(yè)界人士對具身智能不同定義的背后，反映的正是各家技術(shù)路線的差異。

　　比如有些企業(yè)將具身智能定義為需要與物理世界交互的智能體，而有些則將其定義為一具屬于AI的身體。而這兩者的區(qū)別就在于，前者更注重數(shù)據(jù)獲取，后者則更注重AI或大模型技術(shù)的積累。

　　而如果拋開現(xiàn)實層面的阻礙去談理想。具身智能的未來是面向通用機器人。但如今，我們距離通用機器人究竟有多遠?

　　如果用L0-L5做類比，在上文中提到，UniX AI創(chuàng)始人楊豐瑜認為，如今的具身智能機器人正在接近L4階段的過程中。而真正的通用機器人則是L5階段。

　　根據(jù)全球*對沖基金Coatue近日發(fā)布的一篇關(guān)于“具身智能”的報告《The Path to General-Purpose Robots》(通往通用機器人之路)，如果將具身智能的階段與自動駕駛的階段做類比，“過去無人駕駛汽車從L1到L2花了大約20年，而從L2到現(xiàn)在的L4只用了不到10年;那么人型機器人從L1到L2用了大約50年，從L2到L4預計只需要不到5年。”