AI戰(zhàn)略驅(qū)動(dòng)與新芽長(zhǎng)青共振,騰訊2024年Q4營(yíng)收同比增長(zhǎng)11%vivo大模型,回歸地面速讀騰訊2024年報(bào):AI資本開支激增221%至767.6億,再啟超800億港元回購計(jì)劃冠宇集團(tuán)再獲9億融資 資本加碼彰顯發(fā)展?jié)摿?/a>三星盧泰文:要努力“攻陷”中國(guó)市場(chǎng) —— 目前份額不足1%DeepSeek讓英偉達(dá)H20都被瘋搶,但AI推理爆發(fā)不只靠囤卡S系列重磅回歸!小米15S Pro外觀揭曉奧迪計(jì)劃2029年前裁員7500人,聚焦電動(dòng)化轉(zhuǎn)型OPPO Find X8s全方面超越iPhone 16 Pro:更輕更薄 相機(jī)凸起更小董明珠自用美容儀后又一重磅產(chǎn)品!格力電器遮光美容面罩專利公布中國(guó)信通院發(fā)起大模型幻覺測(cè)試,助力AI安全應(yīng)用50系顯卡出貨量暴增200%!首批搭載5080的宏碁影騎士·擎7系列即將開搶!SK海力士推出全球首款12層HBM4樣品,助力AI技術(shù)發(fā)展Meta Llama模型下載量突破10億,開源AI生態(tài)系統(tǒng)加速擴(kuò)張馬自達(dá)發(fā)布“精益資產(chǎn)戰(zhàn)略”加速電氣化轉(zhuǎn)型科技云報(bào)到:AI Agent打了個(gè)響指,商業(yè)齒輪加速轉(zhuǎn)動(dòng)315點(diǎn)名:電子簽如何走出信任危機(jī)?蔚來第三品牌firefly螢火蟲首款車型4月19日上市Nvidia推新Dynamo軟件,計(jì)劃將DeepSeek的AI速度提升30倍Stability AI 發(fā)布新模型Stable Virtual Camera,2D 照片輕松轉(zhuǎn)3D 視頻
  • “稚暉君”的機(jī)器人長(zhǎng)腦子了

    2025年03月18日 09:08:34   來源:DoNews

      3月10日,智元機(jī)器人聯(lián)合創(chuàng)始人稚暉君(彭志輝)在社交平臺(tái)公布其團(tuán)隊(duì)最新研究成果——首個(gè)通用具身基座模型:智元啟元大模型(Genie Operator-1,下文簡(jiǎn)稱 GO-1)。

      這是全球第一個(gè)基于大規(guī)模、高質(zhì)量自有數(shù)據(jù),基于自有機(jī)器人本體訓(xùn)練并部署的機(jī)器人基座模型。

      11日,靈犀X2發(fā)布,這是可以支持高自由度能力且搭載情感計(jì)算引擎的機(jī)器人,不僅能回答稚暉君提出的各種問題,還可以精準(zhǔn)判斷晚上該喝牛奶還是咖啡。

      業(yè)內(nèi)人士認(rèn)為,智元機(jī)器人在人形機(jī)器人領(lǐng)域即將迎來重大技術(shù)或產(chǎn)品突破。正如稚暉君在預(yù)熱視頻中所說:“我們不是在制造工具,而是在創(chuàng)造新物種。”

      當(dāng)前機(jī)器人技術(shù)面臨很多困境,IDC中國(guó)研究經(jīng)理李君蘭接受DoNews采訪時(shí)談到,硬件維度的優(yōu)化、機(jī)器人行動(dòng)控制協(xié)調(diào)能力,以及場(chǎng)景遷移泛化、高計(jì)算資源消耗等等,都亟需一一解決。稚暉君的這個(gè)“新物種”,能成為機(jī)器人的對(duì)癥之藥嗎?

      1、機(jī)器人即將擁有“人腦”

      行業(yè)對(duì)于機(jī)器人寄予厚望,它們的外形不僅要像人,“大腦”也要像人腦一樣,具備學(xué)習(xí)思考的能力,要越學(xué)越聰明。

      GO-1的作用就是幫助機(jī)器人大腦進(jìn)化,其開創(chuàng)提出了ViLLA架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型) + MoE(混合專家)組成。

      VLM,借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語言理解能力;

      MoE,包括「隱式規(guī)劃器」和「動(dòng)作專家」。前者借助大量跨本體和人類操作視頻數(shù)據(jù),獲得通用的動(dòng)作理解能力;后者借助百萬真機(jī)數(shù)據(jù),獲得精細(xì)的動(dòng)作執(zhí)行能力。

      簡(jiǎn)單理解就是,當(dāng)相機(jī)的視覺信號(hào)加上人類的語言指令,通過ViLLA框架,便能輸出機(jī)器人的動(dòng)作執(zhí)行。

      具身智能模型的四類訓(xùn)練數(shù)據(jù) 圖源:智元機(jī)器人

      從官方的解讀看,GO-1除了拓展機(jī)器人的運(yùn)動(dòng)能力,更重要的是加強(qiáng)了其AI能力,可以總結(jié)為幾大特點(diǎn):

      1、人類視頻學(xué)習(xí),結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對(duì)人類行為的理解(學(xué)習(xí)人類倒水,即使隨意移動(dòng)水杯位置)。

      2、小樣本快速泛化 :GO-1具有強(qiáng)大的泛化能力,使得后訓(xùn)練成本非常低,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù)(除了倒水,還能烤面包、抹果醬,這些是之前沒有學(xué)過的場(chǎng)景)。

      圖源:智元

      3、一腦多形 :GO-1能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體(多個(gè)機(jī)器人共同協(xié)作完成復(fù)雜任務(wù))。

      4、持續(xù)進(jìn)化 :GO-1搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實(shí)際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí)(對(duì)機(jī)器人放咖啡杯時(shí)出現(xiàn)的失誤進(jìn)行優(yōu)化)。

      智元發(fā)布的實(shí)驗(yàn)數(shù)據(jù)顯示,相比已有的最優(yōu)模型,GO-1的平均成功率提從46%提升至78%。部分業(yè)內(nèi)人士認(rèn)為,GO-1的這個(gè)模型架構(gòu)很簡(jiǎn)單,創(chuàng)新之處并不多,主要是對(duì)已有工作、數(shù)據(jù)和訓(xùn)練方式做了大幅整合。

      除了GO-1之外,智元還發(fā)布了機(jī)器人本體:靈犀 X2,它重達(dá)33.8千克,全身有28個(gè)自由度,沒有使用任何一個(gè)并聯(lián)結(jié)構(gòu)。

      在視頻展示中,它能夠0幀起手快速讀取藥品說明書,可以駕駛滑板車和平衡車,還能用針縫葡萄。

      它還很有人情味,在問它:“與狗落水先救誰” 的倫理問題時(shí),也能給出符合人類價(jià)值觀的回答。

      圖源:“稚暉君”微博

      據(jù)彭志輝介紹,智元為靈犀X2開發(fā)出一套基于Diffusion(擴(kuò)散模型)的生成式動(dòng)作引擎。這使得機(jī)器人不僅四肢發(fā)達(dá),頭腦也并不簡(jiǎn)單。隨著機(jī)器人具身大腦的持續(xù)迭代,未來智元會(huì)賦予機(jī)器人更多復(fù)雜作業(yè)的能力。

      02、建廠訓(xùn)練,開源降本

      過去一年,具身智能、人形機(jī)器人的關(guān)注度持續(xù)上升,但擺在從業(yè)者面前的困境卻是復(fù)雜又現(xiàn)實(shí)的。

      機(jī)器人要想成功商業(yè)化,實(shí)訓(xùn)是最重要的一步,而獲取并訓(xùn)練真實(shí)場(chǎng)景內(nèi)的數(shù)據(jù),通常是最困難的。

      與大語言模型不同,機(jī)器人“大腦”的訓(xùn)練需要更多來自物理世界即真實(shí)世界動(dòng)態(tài)環(huán)境中的交互數(shù)據(jù),且需要大量的設(shè)備、時(shí)間進(jìn)行采集。如何獲取、怎么獲取,以及對(duì)已有數(shù)據(jù)的標(biāo)準(zhǔn)化,成為人形機(jī)器人技術(shù)演進(jìn)路上的最大難題。

      DoNews記者了解到,目前人形機(jī)器人獲取數(shù)據(jù)的方法,主要包括遙操作機(jī)器人數(shù)據(jù)、人類動(dòng)作捕捉數(shù)據(jù)、仿真合成數(shù)據(jù)以及一些特定的技術(shù)和框架。

      圖源:DoNews整理

      智元機(jī)器人是怎么解決數(shù)據(jù)問題的呢?他們選擇建廠實(shí)操。

      在上海,智元建了一座“數(shù)據(jù)采集工廠”,占地約3000平米,里面分布著多個(gè)不同主題的房間,每個(gè)房間都還原了現(xiàn)實(shí)生活的物件布局,機(jī)器人就在當(dāng)中學(xué)習(xí)不同的技能:疊衣服、整理餐桌、打餐、掃碼收銀......

      智元甚至為機(jī)器人安排了“一對(duì)一教學(xué)”,數(shù)據(jù)采集員手把手地控制機(jī)器人完成抓、握、放等動(dòng)作,以求更精準(zhǔn)地讓機(jī)器人模仿學(xué)習(xí)。每完成一個(gè)動(dòng)作,就相當(dāng)于收集了一條數(shù)據(jù),智元據(jù)此進(jìn)一步訓(xùn)練機(jī)器人的大模型,這也是GO-1之所以推出的基礎(chǔ)底座。

      2024年底,智元將數(shù)據(jù)集開源,這個(gè)AgiBot World(智元世界)匯集了百萬真實(shí)機(jī)器人的數(shù)據(jù),復(fù)刻了家居、餐飲、工業(yè)、商超和辦公五大核心場(chǎng)景。部分業(yè)內(nèi)人士認(rèn)為,這不僅能降低訓(xùn)練成本,也會(huì)非常有利于行業(yè)統(tǒng)一標(biāo)準(zhǔn),減少重復(fù)無用功。

      開源是一種思路,但也不是說機(jī)器人企業(yè)都會(huì)選擇開源,宇樹機(jī)器人就一直保持不開源的發(fā)展策略,目前已經(jīng)成為全球機(jī)器人生產(chǎn)企業(yè)中的頂流。

      說到底,核心的問題還是在于機(jī)器人能否滿足人們的要求。一位關(guān)注具身智能賽道的人向DoNew表示,數(shù)據(jù)集的推動(dòng)作用有多大,還需要在投入實(shí)際訓(xùn)練后再進(jìn)行判斷。

      “人形機(jī)器人,本質(zhì)上就是要它要面對(duì)各種各樣的場(chǎng)景,最好是什么都能做。當(dāng)某個(gè)場(chǎng)景變了,機(jī)器人是不是依舊可以準(zhǔn)確做出判斷?比如倒水,我換一個(gè)場(chǎng)景,又要怎么抓?背后可能又需要幾萬甚至上億的數(shù)據(jù)。未來5到10年能不能滿足這個(gè)條件,現(xiàn)在還不好說。”

      03、“好東西”能支撐未來嗎?

      智元機(jī)器人之所以受到業(yè)內(nèi)如此高的關(guān)注,一大原因是創(chuàng)始人、CTO、首席架構(gòu)師「稚暉君」彭志輝。

      彭志輝是B站“年度百大UP主”,還是華為的“天才少年”,得到過任正非的稱贊。

      2022年12月,他在微博上正式宣布自己離開華為,去追求自己夢(mèng)想和熱愛的事業(yè),“如果程序員是數(shù)字世界的上帝的話,那親手給機(jī)器人以身形,再用AI賦其靈魂,這就是真極客的浪漫啊!”

      2023年,彭志輝創(chuàng)立智元機(jī)器人,僅用18個(gè)月完成從概念到量產(chǎn)的技術(shù)跨越。截止2025年3月,智元機(jī)器人至少完成了8輪融資(A輪),發(fā)布了5款人形機(jī)器人,1000多臺(tái)產(chǎn)品在臨港新片區(qū)量產(chǎn)下線。

      智元機(jī)器人再度將具身智能推向臺(tái)前,但也引發(fā)了相關(guān)思考。

      首先是,大模型真的能完美賦能機(jī)器人嗎?智元官方稱,“對(duì)機(jī)器人公司來說,如果不做大模型,那是屬于沒有未來的機(jī)器人。”

      但另一家頭部公司卻不這么看。去年8月,宇樹科技創(chuàng)始人王興興向媒體表示,具身智能大模型的研發(fā)太燒錢,而且技術(shù)路線目前仍不像大語言模型那么清晰,宇樹科技對(duì)此選擇謹(jǐn)慎投入。

      目前的問題是,大預(yù)言模型都暫未解決「幻覺」問題,機(jī)器人又缺乏高質(zhì)量數(shù)據(jù),能否做到零失誤?

      據(jù)相關(guān)報(bào)道,許多機(jī)器人廠商在demo里展示某個(gè)動(dòng)作足夠酷炫,背后實(shí)則經(jīng)歷了一天的拍攝。2024年的機(jī)器人大會(huì)上,多個(gè)機(jī)器人在參展時(shí)就曾出現(xiàn)Bug、失誤的問題。比如完成一個(gè)只需要移動(dòng)20厘米的抓取動(dòng)作,需要近40秒,或者將炒好的菜在眾目睽睽之下倒在了桌子上。

      再有就是商業(yè)化問題。落地能力是判斷一家機(jī)器人公司是否靠譜的重要指標(biāo),智元機(jī)器人的商業(yè)模式只是初步得到驗(yàn)證,至于規(guī);瘮U(kuò)張、擴(kuò)大市場(chǎng)份額等前景還不明顯。

      更需要重視的是隱私安全,GO-1里所謂人類視頻學(xué)習(xí)功能,會(huì)涉及到大量非授權(quán)數(shù)據(jù)采集。盡管智元承諾模糊人臉與敏感信息,但如何界定“合理使用”邊界仍是法律空白。

      尾聲

      從DeepSeek刷屏,到Manus突擊,再到機(jī)器人大模型,2025開局不到3個(gè)月,人們就被創(chuàng)新者們「激進(jìn)」的步伐一次次震撼。智元的“好東西”具體有多少落地的可能,我們暫時(shí)先打個(gè)問號(hào),但有一點(diǎn)可以確定:AI就快要幫助人類做大事了。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。