文|劉俊宏
編|王一粟
大模型如何重構(gòu)自動(dòng)駕駛?答案已經(jīng)逐漸露出水面。
“在大數(shù)據(jù)、大模型為特征,以數(shù)據(jù)驅(qū)動(dòng)為開發(fā)模式的自動(dòng)駕駛3.0時(shí)代,自動(dòng)駕駛大模型將在車端、云端上實(shí)現(xiàn)一個(gè)統(tǒng)一的端到端的平臺管理。”毫末智行CEO顧維灝在近日的HAOMO AI DAY上表示。
大模型對自動(dòng)駕駛的改變,下至感知、認(rèn)知、數(shù)據(jù)標(biāo)注等的底層技術(shù)框架,上至對之前技術(shù)方案的模型剪枝、蒸餾。自動(dòng)駕駛在這個(gè)過程中,也變得“越來越懂”我們身處的真實(shí)世界。
當(dāng)前,隨著自動(dòng)駕駛技術(shù)的進(jìn)步,預(yù)計(jì)將來也會有越來越多的量產(chǎn)車得以落地。據(jù)工信部的數(shù)據(jù),當(dāng)前乘用車市場L2及以上智能駕駛滲透率已達(dá)42.4%,預(yù)計(jì)到2025年將達(dá)到70%,并普及到10~20萬的主流車型上。
面對智能汽車產(chǎn)品端的放量和技術(shù)普及的需求,市場正在呼喚著,更具性價(jià)比的成熟智能駕駛方案。此前昂貴的智能駕駛產(chǎn)品,正在迎來一個(gè)全新的“千元級”機(jī)遇。
而這也意味著,拿到更多智能駕駛訂單的玩家,將積累更多的車型行駛數(shù)據(jù)。進(jìn)而轉(zhuǎn)化成迭代速度更快的數(shù)據(jù)飛輪,反哺到場上的自動(dòng)駕駛能力。
大模型,重塑了自動(dòng)駕駛,也即將揭開自動(dòng)駕駛降本大戰(zhàn)的序幕。
大模型正在重構(gòu)自動(dòng)駕駛
“在自動(dòng)駕駛3.0階段,自動(dòng)駕駛開發(fā)呈現(xiàn)以大數(shù)據(jù)、大模型、大算力為核心特征,以數(shù)據(jù)驅(qū)動(dòng)為開發(fā)的模式。”對于大模型重塑后的智能駕駛,顧維灝如此解釋道。
首先,在數(shù)據(jù)的訓(xùn)練上,自動(dòng)駕駛原本的訓(xùn)練方式是使用人工標(biāo)注的數(shù)據(jù)去訓(xùn)練,但引入大模型之后,已經(jīng)可以使用自動(dòng)化的標(biāo)注技術(shù)來大規(guī)模、自動(dòng)化地標(biāo)注4D Clips(一段時(shí)間內(nèi),所有傳感器接受的數(shù)據(jù)信息),并且將大模型的訓(xùn)練從有監(jiān)督訓(xùn)練升級到了自監(jiān)督訓(xùn)練。
不僅如此,大模型還可以利用生成式AI的能力,自動(dòng)生成視頻來加強(qiáng)訓(xùn)練。通過構(gòu)建4D表征空間,使得CV Backbone(提取視覺輸入圖像信息)能夠?qū)W到三維的幾何結(jié)構(gòu)、圖片紋理、時(shí)序信息等全面的物理世界信息,相當(dāng)于把整個(gè)世界裝入到神經(jīng)網(wǎng)絡(luò)當(dāng)中。
于是,大模型解決了之前人工智能最被人戲謔的“有多少人工就有多少智能”的問題,自動(dòng)化的數(shù)據(jù)標(biāo)注和訓(xùn)練,讓自動(dòng)駕駛成為了一臺“永動(dòng)機(jī)”。
接下來,在足夠的數(shù)據(jù)驅(qū)動(dòng)下,自動(dòng)駕駛的開發(fā)模式也隨之改變。
此前的自動(dòng)駕駛研發(fā)主要由任務(wù)驅(qū)動(dòng)。開發(fā)過程主要基于解決特定任務(wù)所采集的小數(shù)據(jù),構(gòu)建小模型來完成。一個(gè)具體需求,對應(yīng)一個(gè)具體功能,表面上看似一個(gè)個(gè)功能開發(fā)迅速,汽車智駕的場景在一個(gè)個(gè)被“攻關(guān)”。但實(shí)際上這種開發(fā)模式只能以需求為導(dǎo)向,在特定問題的限制下,難以窮盡真實(shí)世界之廣袤,于是各種corner case 無法解決,自動(dòng)駕駛也就難以真正落地。
在技術(shù)框架上,自動(dòng)駕駛3.0階段利用云端實(shí)現(xiàn)感知和認(rèn)知大模型能力進(jìn)行突破。
原本在車端的各類小模型,逐步統(tǒng)一到感知和認(rèn)知模型中,完成車端智駕系統(tǒng)整合到一個(gè)完整的大模型中去。同時(shí)在云端,大模型通過剪枝、蒸餾等方式逐步提升車端的感知能力。在通訊環(huán)境好的地方,大模型甚至可以通過車云協(xié)同的方式實(shí)現(xiàn)遠(yuǎn)程控車。最終實(shí)現(xiàn),在車端和云端上端到端的自動(dòng)駕駛大模型。
從技術(shù)框架層面,將大模型引入自動(dòng)駕駛的效果,我們可以參考特斯拉的表現(xiàn)。2020年,特斯拉引入BEV+Transformer(BEVFormer),取代上一代2D+CNN算法。
在Transformer的注意力(Attention)機(jī)制下,特斯拉增強(qiáng)了模型對全局的理解能力,降低了來自不同傳感器數(shù)據(jù)融合的難度。實(shí)現(xiàn)支持汽車生成BEV(鳥瞰圖),讓汽車了解周圍環(huán)境就像是“開天眼”一般順暢。
汽車能夠更全面地看到世界,是感知大模型的功勞。
以毫末的方案為例。在對真實(shí)物理世界的學(xué)習(xí)中,毫末使用了NeRF(三維重建)技術(shù)整合,將真實(shí)世界建模到三維空間,再加上時(shí)序形成4D向量空間。
在此基礎(chǔ)上,通過引入開源的圖文多模態(tài)大模型,實(shí)現(xiàn)4D向量空間到語義空間的對齊。利用圖文多模態(tài)大模型對畫面的描述能力,自動(dòng)駕駛獲得了跟人類一樣“識別萬物”的能力。
在GPT-4V最新的測試中,將下面的圖片直接輸入給ChatGPT,就能像人類一樣,精準(zhǔn)的描述出圖片環(huán)境中的駕駛策略。
接下來,汽車想要“動(dòng)”起來,還需要認(rèn)知大模型的能力,才能給出合適的指令。
在語義感知大模型構(gòu)建的“識別萬物”能力的基礎(chǔ)上,毫末通過構(gòu)建駕駛語言(Drive Language)來描述駕駛環(huán)境和駕駛意圖,再結(jié)合導(dǎo)航引導(dǎo)信息以及自車歷史動(dòng)作,并借助外部大語言模型LLM的海量知識來輔助給出駕駛解釋和駕駛建議。
大語言模型LLM的意義,在于將世界知識引入到駕駛策略中來。 當(dāng)自動(dòng)駕駛認(rèn)知決策獲得了人類社會的常識和推理能力(世界知識),將大幅度提升自動(dòng)駕駛策略的可解釋性和泛化性。
如此一來,在通用認(rèn)知大模型和通用感知大模型的幫助下,自動(dòng)駕駛形成了“看得清”、“看得懂”,還“知道接下來怎么做”的能力。
在引入大模型兩年后,2022年特斯拉在算法中引入時(shí)序網(wǎng)絡(luò),從而將BEV“全景地圖”升級為占用網(wǎng)絡(luò)(occupancy Network)。以BEV“看到”的道路上,不再分析路上“有什么”,以判斷汽車能否通過的方式,從而決策汽車下一步“走還是停”。
直到2023年8月,特斯拉實(shí)現(xiàn)了依靠車載攝像頭和神經(jīng)網(wǎng)絡(luò)識別道路和交通情況,端到端的自動(dòng)駕駛系統(tǒng)(FSD Beta V12)。
但即使如此,大模型與自動(dòng)駕駛的深度結(jié)合也才剛剛開始,在感知和認(rèn)知的能力上依然有很大的提升空間。
三個(gè)能力升級:純視覺、更廣、更小
在結(jié)合多模態(tài)大模型之后,實(shí)際的效果怎么樣呢?
在測試的實(shí)驗(yàn)結(jié)果中,毫末在純視覺泊車、城市NOH(等同于城市領(lǐng)航輔助駕駛)、和小目標(biāo)障礙物檢測上取得了明顯的進(jìn)展。
這意味著,在大模型加入后,自動(dòng)駕駛在能力上,出現(xiàn)了質(zhì)的提升。
首先是在泊車環(huán)境中,驗(yàn)證了純視覺感知實(shí)現(xiàn)功能的可行性。
毫末采用了四個(gè)視野寬廣的魚眼攝像頭作為其視覺BEV的感知基礎(chǔ),獲取汽車周圍360°的畫面。然后對圖像進(jìn)行虛擬相機(jī)轉(zhuǎn)換,通過backbone技術(shù)提取出畫面的視覺特征,并映射到BEV空間。 在BEV空間下,完成對障礙物的輪廓邊界進(jìn)行識別和測量。從而識別墻、柱子、車輛等各類型的邊界輪廓,實(shí)現(xiàn)360°的全視野動(dòng)態(tài)感知。 15米內(nèi)精度可以達(dá)到30cm,2米內(nèi)精度可以高于10cm。
以當(dāng)前的結(jié)果來看,純視覺的感知方案已經(jīng)可以替代之前USS(超聲波雷達(dá))來識別汽車周邊障礙物的方案。在未來,毫末完全可能去掉當(dāng)前配置的12個(gè)USS。
就像是特斯拉在新款Model 3上去掉所有雷達(dá)一樣,進(jìn)一步增強(qiáng)純視覺感知的能力,從而節(jié)省一組USS大約150元的制造成本。
在城市NOH的進(jìn)展上,毫末已經(jīng)可以實(shí)現(xiàn)對各類交通標(biāo)志、地面箭頭、甚至井蓋等交通場景的全要素覆蓋。
例如在紅綠燈的識別問題中,由于國內(nèi)的紅綠燈形態(tài)不盡相同,道路上橫的、豎的、只顯示讀秒的、聯(lián)排的,甚至因損壞而不停閃爍的都有。對于人類來說,識別這些紅綠燈及其狀態(tài)輕而易舉,但對于之前的自動(dòng)駕駛就需要對這些不同形狀的紅綠燈都進(jìn)行學(xué)習(xí)訓(xùn)練。
在通用大模型加入后,自動(dòng)駕駛展現(xiàn)出了萬物識別的泛化能力。大模型在幫助自動(dòng)駕駛積累大量相關(guān)場景的物體的同時(shí),還幫助優(yōu)化了車端感知模型,進(jìn)而能夠識別更多道路場景要素。
最后是小目標(biāo)障礙物檢測上,當(dāng)前毫末城市NOH可以在城市道路場景中,在時(shí)速最高70公里的50米距離外,就能檢測到大概高度為35cm的小目標(biāo)障礙物,可以做到100%的成功繞障或剎停。
“毫末目前引入的大模型方法,本質(zhì)上是在提升車端模型的泛化性”,毫末智行數(shù)據(jù)智能科學(xué)家賀翔解釋道。
從上述的幾項(xiàng)進(jìn)展中可以清晰看到,在大模型的泛化能力引入后,自動(dòng)駕駛開始展現(xiàn)出更強(qiáng)的數(shù)據(jù)理解能力、更精準(zhǔn)的物體分類認(rèn)識能力和更強(qiáng)的識別能力。
隨后對于自動(dòng)駕駛近期的發(fā)展上,賀翔判斷:“我個(gè)人判斷,可能今年到明年之間,是自動(dòng)駕駛黎明之前的黑暗,我們可能會迎來一個(gè)巨大的爆發(fā)。”
大模型加入,智駕降本戰(zhàn)打響
在新能源汽車時(shí)代下,由中國極限制造所影響的汽車供應(yīng)鏈,正在將汽車消費(fèi)引導(dǎo)至更著重考慮性價(jià)比的方向。
在智駕領(lǐng)域上,Tier1已經(jīng)把成本從此前的幾十萬元斷崖式壓縮到了千元級別。
近日,毫末發(fā)布了三款千元級無圖NOH產(chǎn)品。HP170、HP370和HP570,產(chǎn)品分別對應(yīng)算力為5TOPS、32TOPS和72(或100)TOPS。分別對應(yīng)智駕等級為包含行泊一體的高速無圖 NOH、城市記憶行車和城市全場景無圖 NOH,售價(jià)為3000、5000和8000元級。
在落地產(chǎn)品上,毫末的產(chǎn)品已經(jīng)搭載至超過20款車型。其中包含長城汽車旗下的山海炮PHEV版和新摩卡Hi-4S等車型。
高性價(jià)比的智駕方案,破解了當(dāng)下20萬以上汽車才能搭配高階智駕的局面。以毫末、大疆為首的汽車Tier1們,正在推動(dòng)10萬~20萬元主導(dǎo)性價(jià)比的汽車產(chǎn)品中,展開智駕配置的競爭。
例如大疆在寶駿云朵靈犀版上配備了行泊一體智能駕駛方案,能夠支持無圖高速NOA和帶有短途路線記憶功能。但這款汽車產(chǎn)品起售價(jià)僅為12.58萬起。
另一邊,相比于大疆、易航智能、紐勱等暫時(shí)僅有高速NOA的汽車Tier1們,在大模型加持下,擁有城市NOA能力的毫末,能夠讓合作的車廠們以更高的性價(jià)比,對技術(shù)先進(jìn)的廠商開啟競爭。
參考毫末的城市NOA方案,8000元級的定價(jià)雖不包含激光雷達(dá),但也在價(jià)格上相對其他廠商擁有一定的優(yōu)勢。
據(jù)興業(yè)證券測算,國內(nèi)能夠?qū)崿F(xiàn)城市NOA功能的硬件成本預(yù)估為2.5-3萬元。其中,傳感器成本約為5000-10000元,單顆激光雷達(dá)價(jià)格約為3000-5000元,智駕域控制器成本約為1.5-2.5萬元。
對比沒有激光雷達(dá)的特斯拉方案,在其最新的HW4.0系統(tǒng)內(nèi),參考Greentheonly 的拆解推算成本。特斯拉HW4.0總計(jì)物料成本約為1500-2100美元。換算為人民幣,特斯拉的方案硬件成本已然超過萬元。
便宜可得的高階智駕能力,讓車廠能夠在不同價(jià)格區(qū)間的產(chǎn)品擁有更高的智能化性價(jià)比。
在我們此前《自動(dòng)駕駛攻城戰(zhàn),華為小鵬先亮劍》的研究中,大部分自主品牌車企對城市NOA的支持主要靠消費(fèi)者在汽車配置上加價(jià)來實(shí)現(xiàn)。選購城市NOA功能需要的增配的加價(jià)幅度在2-6萬元不等。其中,加價(jià)2萬升級的小鵬G6是重點(diǎn)車型里加價(jià)最少的產(chǎn)品。
然而,當(dāng)下的智能化性價(jià)比競爭中,9月25日小鵬在新款P5上砍掉了昂貴的激光雷達(dá),將高速NOA支持車型下探至了15-20萬區(qū)間。
而這也意味著,高階輔助駕駛即將成為15-20萬價(jià)格區(qū)間的標(biāo)配。
消費(fèi)者可以不用,但智能化的功能產(chǎn)品必須要有。某種意義上,智能汽車正在走向類似于手機(jī)“卷”芯片堆各種配置的老路。
而在大模型加持下自動(dòng)駕駛,伴隨著大模型在感知和認(rèn)知能力的泛化,自動(dòng)駕駛也將以越來越低的價(jià)格,配置到越來越多的車型上去。
當(dāng)下的自動(dòng)駕駛,距離爆發(fā)越來越近了。就像是那首《我們走在大路上》所唱,“我們走在大路上,意氣風(fēng)發(fā)斗志昂揚(yáng)……”
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
京東11.11采銷直播探廠為消費(fèi)者揭開答案。近日,京東3C數(shù)碼采銷走進(jìn)武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產(chǎn)品,并為消費(fèi)者帶來超值低價(jià)與福利。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。