天眼新知 | 機(jī)器人從未來而來與大模型碰撞出“智慧”的火花

2023年06月05日 15:07:03 來源：天眼查

　　前言：隨著中國數(shù)字經(jīng)濟(jì)的深入發(fā)展，產(chǎn)業(yè)數(shù)字化進(jìn)程不斷加速，大數(shù)據(jù)在產(chǎn)業(yè)決策中的比重越來越高。天眼查數(shù)據(jù)研究院特此推出“天眼新知”專欄，以天眼查大數(shù)據(jù)為依托，梳理產(chǎn)業(yè)格局及發(fā)展脈絡(luò)，解讀產(chǎn)業(yè)領(lǐng)域最新動態(tài)和投融資風(fēng)向，為各方?jīng)Q策提供參考。

　　本文為天眼新知·產(chǎn)業(yè)分析系列，第三十七篇。

　　機(jī)器人，多數(shù)人的第一次“親密接觸”源于科幻大電影，源于對超越現(xiàn)實(shí)生活的無盡想象，機(jī)器人逐漸從“單純工具”逐步進(jìn)化成為“親密伙伴”。

　　年初爆紅的“大模型”以及再次“走紅”的人形機(jī)器人，讓人們再次驚呼科技對于生活方式的改變。

　　未來，隨著AI技術(shù)的不斷成熟，人形機(jī)器人研發(fā)的突破，讓“機(jī)器人走進(jìn)普通人生活的愿景”越來越逼近現(xiàn)實(shí)。

　　一、機(jī)器人：從“自動化”向“智能化”演進(jìn)

　　國際機(jī)器人協(xié)會(International Federation of Robotics，IFR)提出，機(jī)器人是可在兩個或多個軸上進(jìn)行編程的驅(qū)動機(jī)制，具有一定程度的自主性，在特定環(huán)境中移動以執(zhí)行預(yù)定的任務(wù)。

　　1.機(jī)器人應(yīng)用場景逐步由“簡單，初級”向“復(fù)雜，高級”邁進(jìn)

　　最初機(jī)器人的核心功能是替代人進(jìn)行重復(fù)的、危險的工作，同時提高效率與精度;之后以“服務(wù)人”為功能的機(jī)器人走入人們的眼簾，用于迎賓接待等與人類距離更近的場景，娛樂/掃地機(jī)器人等大規(guī)模進(jìn)入家庭;接著其高精度的特性被用于物流、醫(yī)療，自動取件、輔助護(hù)理機(jī)器人開始出現(xiàn)。

　　2.機(jī)器人逐步由“自動化”向“智能化”演進(jìn)

　　機(jī)器人的發(fā)展經(jīng)歷了三代的演進(jìn)，第一代為程序控制機(jī)器人：通過編程或示教將動作指令輸入機(jī)器人中，而由于缺之外部傳感器，機(jī)器人只能刻板地完成程序規(guī)定的動作，一旦環(huán)境情況略有變化，機(jī)器人的工作就會出現(xiàn)問題;第二代為自適應(yīng)機(jī)器人：其帶有視覺、力覺等傳感器，能據(jù)傳感器獲得的信息調(diào)整工作狀態(tài)：第三代為智能機(jī)器人：其擁有更豐富的傳感器，不僅能獲取并處理外部綜合信息，甚至能據(jù)此自己制定行動目標(biāo)，其智能主要體現(xiàn)在感知交互、獨(dú)立決策、自我優(yōu)化三個方面。

　　二、大模型：多個城市持續(xù)發(fā)力，主攻通用人工智能

　　2023年4月中共中央政治局會議指出，要重視通用人工智能發(fā)展，營造創(chuàng)新生態(tài)，重視防范風(fēng)險。區(qū)別于此前中央經(jīng)濟(jì)工作會議等重要會議中泛指的“人工智能”，此次政治局會議明確強(qiáng)調(diào)“通用”，即Chat-GPT自去年11月以來引領(lǐng)的通用性AI大模型技術(shù)路線。

　　圖表1 主要城市人工智能政策列示(不完全統(tǒng)計(jì))

　　以人工智產(chǎn)業(yè)發(fā)展高地，北京為例。北京市《若干措施》的發(fā)布是國內(nèi)首個地方政府緊貼AI大模型產(chǎn)業(yè)化發(fā)展提出的專項(xiàng)措施，北京打響了地方大模型競賽的第一槍。當(dāng)下正值Chat-GPT引發(fā)的“千模大戰(zhàn)”打響，大模型可能為各行各業(yè)帶來新的效率革命和體驗(yàn)升級。隨著AI第一城北京行動了，上海、深圳、成都等地區(qū)都已陸續(xù)采取行動，搶占發(fā)展的“窗口期”。

　　三、人形機(jī)器人：人與機(jī)器的“不期而遇”

　　從定義和使用目的出發(fā)，人形機(jī)器人是具有與人類似的外觀和運(yùn)動方式的智能機(jī)器人。人形機(jī)器人(humanoid robots)又譯“仿人機(jī)器人”，字面意思是模仿人的形態(tài)和行為設(shè)計(jì)制造的機(jī)器人。目前人形機(jī)器人并沒有普遍定義，但根據(jù)專業(yè)書籍《Humanoid Robots》的歸納，人形機(jī)器人應(yīng)當(dāng)能“在人工作和居住的環(huán)境工作，操作為人設(shè)計(jì)的工具和設(shè)備，與人交流”。在此前提下，人形機(jī)器人最終應(yīng)具有與人類似的身體結(jié)構(gòu)，包括頭、軀干和四肢，使用雙足行走，用多指手執(zhí)行各種操作，并具有一定程度的認(rèn)知和決策智能。

　　人形機(jī)器人起步于1960年代后期，以日本的研究成果最為矚目。1973年日本早稻田大學(xué)的加藤一郎教授研發(fā)出世界上第一款人形機(jī)器人 WABOT-1 的 WL-5 號兩足步行機(jī)，嚴(yán)格講類屬于仿生機(jī)械，是人形機(jī)器人的雛形。1986年日本本田開始進(jìn)行人形機(jī)器人 ASIMO 的研究，并成功于2000年發(fā)布第一代機(jī)型。

　　圖表2 人形機(jī)器人信息展示(不完全統(tǒng)計(jì))

　　四、人形機(jī)器人與AI大模型：通用場景加速C端革命性推進(jìn)

　　隨著集成設(shè)計(jì)技術(shù)、運(yùn)動管理控制技術(shù)、傳感器感知技術(shù)等關(guān)鍵技術(shù)的不斷突破，以及人工智能、5G等新一代信息技術(shù)的融合應(yīng)用持續(xù)深入，特種機(jī)器人加速應(yīng)用于煤礦、深海、極地等場景，釋放出巨大的生產(chǎn)和科研價值，而其中最讓前沿科技公司、普通消費(fèi)者“著迷”的是以人形機(jī)器人為代表的智能移動機(jī)器人的出現(xiàn)，迭代。

　　目前，AI技術(shù)通過構(gòu)建全面感知、實(shí)時互聯(lián)、分析決策、自主學(xué)習(xí)的智能系統(tǒng)，使機(jī)器人自主作業(yè)成為可能。AI通過機(jī)器人視覺技術(shù)強(qiáng)化機(jī)器人的感知能力，通過構(gòu)建算法模型提升其分析決策、自主學(xué)習(xí)的能力，從而使機(jī)器人能夠獨(dú)立完成作業(yè)。

　　1.感知世界的能力(機(jī)器人的眼睛)

　　機(jī)器人自主移動的感知和定位技術(shù)中激光和視覺導(dǎo)航是主流應(yīng)用方案。計(jì)算機(jī)視覺的發(fā)展經(jīng)歷了基于以特征描述子代表的傳統(tǒng)視覺方法、以CNN卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)，目前通用的視覺大模型正處于研究探索階段，人形機(jī)器人的場景相對工業(yè)機(jī)器人更通用、更復(fù)雜，視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場景。

　　一方面，大模型的強(qiáng)擬合能力使得人形機(jī)器人在進(jìn)行目標(biāo)識別、避障、三維重建、語義分割等任務(wù)時具備更高的精確度;另一方面，大模型解決了深度學(xué)習(xí)技術(shù)過分依賴單一任務(wù)數(shù)據(jù)分布，場景泛化效果不佳的問題，通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識，并遷移到下游任務(wù)中，基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識完備性，提升場景泛化效果。

　　典型產(chǎn)品：特斯拉“Optimus(擎天柱)”

　　感知層面，特斯拉機(jī)器人頭部使用8個攝像頭采集視覺信息。計(jì)算層面，機(jī)器人將采用目前特斯拉汽車使用的FSD(Full Self-Driving，全自動駕駛)電腦、運(yùn)用神經(jīng)網(wǎng)絡(luò)等模型實(shí)時處理信息。特斯拉將使用超算“Dojo(道場)”訓(xùn)練機(jī)器人使用的AI模型，使其更有效的識別外界物體并做出反應(yīng)。

　　2.思考和決策的能力(機(jī)器人的大腦)

　　目前的機(jī)器人都是專用機(jī)器人，只能在限定場景中應(yīng)用，即使是機(jī)器人抓取，基于計(jì)算機(jī)視覺，仍然是在限定場景中，算法僅用于識別物體，如何做、做什么仍需要人的定義。要讓機(jī)器人通用，叫他去澆花，他就知道去拿水壺，接水，然后澆花，這是需要常識才能完成的事情。如何能讓機(jī)器人擁有常識?在大模型出現(xiàn)之前，這個問題幾乎是無解的。大模型讓機(jī)器人可以擁有常識，從而具備通用性去完成各種任務(wù)，徹底改變通用機(jī)器人實(shí)現(xiàn)的模式。人類工具和環(huán)境的適應(yīng)性，不用再為了機(jī)器人而造工具。

　　典型產(chǎn)品：首個機(jī)器人公民“索菲亞”

　　2017年，索菲亞成為世界上第一個獲得公民身份的機(jī)器人。她說她會用她的智慧幫助人類發(fā)展，讓我們不要害怕她，她很友善。2018年，她還成為全球首位開展在線教育課程的AI老師。索菲亞表示，未來的機(jī)器人完全勝任教師的工作，能夠基于與學(xué)生的互動，有效解決學(xué)生遇到的心理和情感問題。

　　3.執(zhí)行能力(機(jī)器人的四肢)

　　行動能力(腿)+精細(xì)操作(手)。把機(jī)器人做成人形，就是為了讓機(jī)器人的執(zhí)行能力更加通用。機(jī)器人執(zhí)行任務(wù)時所處的環(huán)境是按照人類的體型建造起來的：建筑、道路、設(shè)施、工具等，這個世界是為了方便人類這種人形生物才這樣設(shè)計(jì)。如果出現(xiàn)了某種新形態(tài)的機(jī)器人，人們就必須重新設(shè)計(jì)一套機(jī)器人適應(yīng)的全新環(huán)境。設(shè)計(jì)在某個特定范圍內(nèi)執(zhí)行任務(wù)的機(jī)器人相對容易，如果想要提高機(jī)器人的通用性，就必須選擇可以作為分身的人形機(jī)器人。此外，人類與人形機(jī)器人更容易有情感上的交流，人形機(jī)器人會讓人感到親近。

　　典型產(chǎn)品：波士頓動力Atlas

　　2020年12月，波士頓動力發(fā)布了Atlas跳舞的視頻，動作流暢且富有表現(xiàn)力。在舞蹈中，機(jī)器人需要在起跳懸空狀態(tài)下調(diào)整姿勢，以保持平衡并精確做出動作。2021年8月，在官方最新視頻中，Atlas可以在障礙環(huán)境內(nèi)“跑酷”，做出跳躍、俯沖翻滾、空翻等一系列高難度全身動作。

　　4.“具身智能”+機(jī)器人：人工智能的終極形態(tài)

　　如何讓電腦有如一歲小孩般的感知和行動能力的問題，誕生了“具身智能”的概念。其可以簡單理解為，各種不同形態(tài)的機(jī)器人，讓它們在真實(shí)的物理環(huán)境下執(zhí)行各種各樣的任務(wù)，來完成人工智能的進(jìn)化過程，比如：人形機(jī)器人、智能駕駛汽車，或者未來的“變形金剛”。

　　英偉達(dá)創(chuàng)始人黃仁勛在 ITF World 2023 半導(dǎo)體大會上表示，具身智能(Embodied AI)是能理解、推理、并與物理世界互動的智能系統(tǒng)，是人工智能的下一個浪潮。

　　具身智能最大的特質(zhì)就是能夠以主人公的視角去自主感知物理世界，用擬人化的思維路徑去學(xué)習(xí)，從而做出人類期待的行為反饋，而不是被動的等待數(shù)據(jù)投喂。人形機(jī)器人提供了各種基于人類行為的學(xué)習(xí)和反饋系統(tǒng)，為實(shí)現(xiàn)更復(fù)雜行為語義提供了迭代的基礎(chǔ)和試驗(yàn)場。因此，人形機(jī)器人的逐步完善也為具身智能的落地提供了方向，是具身智能的重要應(yīng)用場景，也將為具身智能的迭代優(yōu)化提供方向和空間。

　　五、專利技術(shù)：機(jī)器人、大模型專利申請逐年增加

　　1.機(jī)器人專利：

　　近年來，機(jī)器人與前沿科技產(chǎn)業(yè)，諸如：大數(shù)據(jù)，人工智能等結(jié)合愈加緊密，特別是人形機(jī)器人的出現(xiàn)，讓機(jī)器人作為科技產(chǎn)業(yè)的“技術(shù)”含量日益提升。

　　從數(shù)量來看，機(jī)器人專利保持穩(wěn)定增長，2022年申請專利2.3萬余項(xiàng);從類型上來看，發(fā)明專利與實(shí)用新型占比較高，兩者之和占總數(shù)的9成。

　　2.大模型專利：

　　大模型的“爆發(fā)”也并非沒有征兆。在人工智能領(lǐng)域，作為其“皇冠上的明珠”，自然語言處理是理解人類語言、情感和思想的技術(shù),從其“寥寥數(shù)語”的介紹中，就可以發(fā)現(xiàn)它對于“機(jī)器”到底“因何為人”的重要性與超高的難度。

　　從近年來專利申請的數(shù)量來看，還是保持了較為穩(wěn)定快速的增長，自2018以來，其申請量的復(fù)合增長率達(dá)到61.2%;

　　從類型上來看，發(fā)明專利占據(jù)絕對的領(lǐng)先地位，占比近98%。

　　天眼查研究院認(rèn)為，大模型技術(shù)推動人工智能實(shí)現(xiàn)了一次歷史性跨越，未來仍有廣闊的持續(xù)創(chuàng)新空間。中國經(jīng)濟(jì)社會高質(zhì)量發(fā)展為大模型創(chuàng)新提供了豐富場景和數(shù)據(jù)基礎(chǔ)，人工智能在中國發(fā)展?jié)摿薮蟆?/p>

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信