大模型，重構(gòu)自動(dòng)駕駛

2023年10月17日 21:12:12 文|劉俊宏編|王一粟 來(lái)源：光錐智能

　　文|劉俊宏

　　編|王一粟

　　大模型如何重構(gòu)自動(dòng)駕駛?答案已經(jīng)逐漸露出水面。

　　“在大數(shù)據(jù)、大模型為特征，以數(shù)據(jù)驅(qū)動(dòng)為開(kāi)發(fā)模式的自動(dòng)駕駛3.0時(shí)代，自動(dòng)駕駛大模型將在車(chē)端、云端上實(shí)現(xiàn)一個(gè)統(tǒng)一的端到端的平臺(tái)管理。”毫末智行CEO顧維灝在近日的HAOMO AI DAY上表示。

　　大模型對(duì)自動(dòng)駕駛的改變，下至感知、認(rèn)知、數(shù)據(jù)標(biāo)注等的底層技術(shù)框架，上至對(duì)之前技術(shù)方案的模型剪枝、蒸餾。自動(dòng)駕駛在這個(gè)過(guò)程中，也變得“越來(lái)越懂”我們身處的真實(shí)世界。

　　當(dāng)前，隨著自動(dòng)駕駛技術(shù)的進(jìn)步，預(yù)計(jì)將來(lái)也會(huì)有越來(lái)越多的量產(chǎn)車(chē)得以落地。據(jù)工信部的數(shù)據(jù)，當(dāng)前乘用車(chē)市場(chǎng)L2及以上智能駕駛滲透率已達(dá)42.4%，預(yù)計(jì)到2025年將達(dá)到70%，并普及到10～20萬(wàn)的主流車(chē)型上。

　　面對(duì)智能汽車(chē)產(chǎn)品端的放量和技術(shù)普及的需求，市場(chǎng)正在呼喚著，更具性?xún)r(jià)比的成熟智能駕駛方案。此前昂貴的智能駕駛產(chǎn)品，正在迎來(lái)一個(gè)全新的“千元級(jí)”機(jī)遇。

　　而這也意味著，拿到更多智能駕駛訂單的玩家，將積累更多的車(chē)型行駛數(shù)據(jù)。進(jìn)而轉(zhuǎn)化成迭代速度更快的數(shù)據(jù)飛輪，反哺到場(chǎng)上的自動(dòng)駕駛能力。

　　大模型，重塑了自動(dòng)駕駛，也即將揭開(kāi)自動(dòng)駕駛降本大戰(zhàn)的序幕。

　　大模型正在重構(gòu)自動(dòng)駕駛

　　“在自動(dòng)駕駛3.0階段，自動(dòng)駕駛開(kāi)發(fā)呈現(xiàn)以大數(shù)據(jù)、大模型、大算力為核心特征，以數(shù)據(jù)驅(qū)動(dòng)為開(kāi)發(fā)的模式。”對(duì)于大模型重塑后的智能駕駛，顧維灝如此解釋道。

　　首先，在數(shù)據(jù)的訓(xùn)練上，自動(dòng)駕駛原本的訓(xùn)練方式是使用人工標(biāo)注的數(shù)據(jù)去訓(xùn)練，但引入大模型之后，已經(jīng)可以使用自動(dòng)化的標(biāo)注技術(shù)來(lái)大規(guī)模、自動(dòng)化地標(biāo)注4D Clips(一段時(shí)間內(nèi)，所有傳感器接受的數(shù)據(jù)信息)，并且將大模型的訓(xùn)練從有監(jiān)督訓(xùn)練升級(jí)到了自監(jiān)督訓(xùn)練。

　　不僅如此，大模型還可以利用生成式AI的能力，自動(dòng)生成視頻來(lái)加強(qiáng)訓(xùn)練。通過(guò)構(gòu)建4D表征空間，使得CV Backbone(提取視覺(jué)輸入圖像信息)能夠?qū)W到三維的幾何結(jié)構(gòu)、圖片紋理、時(shí)序信息等全面的物理世界信息，相當(dāng)于把整個(gè)世界裝入到神經(jīng)網(wǎng)絡(luò)當(dāng)中。

　　于是，大模型解決了之前人工智能最被人戲謔的“有多少人工就有多少智能”的問(wèn)題，自動(dòng)化的數(shù)據(jù)標(biāo)注和訓(xùn)練，讓自動(dòng)駕駛成為了一臺(tái)“永動(dòng)機(jī)”。

　　接下來(lái)，在足夠的數(shù)據(jù)驅(qū)動(dòng)下，自動(dòng)駕駛的開(kāi)發(fā)模式也隨之改變。

　　此前的自動(dòng)駕駛研發(fā)主要由任務(wù)驅(qū)動(dòng)。開(kāi)發(fā)過(guò)程主要基于解決特定任務(wù)所采集的小數(shù)據(jù)，構(gòu)建小模型來(lái)完成。一個(gè)具體需求，對(duì)應(yīng)一個(gè)具體功能，表面上看似一個(gè)個(gè)功能開(kāi)發(fā)迅速，汽車(chē)智駕的場(chǎng)景在一個(gè)個(gè)被“攻關(guān)”。但實(shí)際上這種開(kāi)發(fā)模式只能以需求為導(dǎo)向，在特定問(wèn)題的限制下，難以窮盡真實(shí)世界之廣袤，于是各種corner case 無(wú)法解決，自動(dòng)駕駛也就難以真正落地。

　　在技術(shù)框架上，自動(dòng)駕駛3.0階段利用云端實(shí)現(xiàn)感知和認(rèn)知大模型能力進(jìn)行突破。

　　原本在車(chē)端的各類(lèi)小模型，逐步統(tǒng)一到感知和認(rèn)知模型中，完成車(chē)端智駕系統(tǒng)整合到一個(gè)完整的大模型中去。同時(shí)在云端，大模型通過(guò)剪枝、蒸餾等方式逐步提升車(chē)端的感知能力。在通訊環(huán)境好的地方，大模型甚至可以通過(guò)車(chē)云協(xié)同的方式實(shí)現(xiàn)遠(yuǎn)程控車(chē)。最終實(shí)現(xiàn)，在車(chē)端和云端上端到端的自動(dòng)駕駛大模型。

　　從技術(shù)框架層面，將大模型引入自動(dòng)駕駛的效果，我們可以參考特斯拉的表現(xiàn)。2020年，特斯拉引入BEV+Transformer(BEVFormer)，取代上一代2D+CNN算法。

　　在Transformer的注意力(Attention)機(jī)制下，特斯拉增強(qiáng)了模型對(duì)全局的理解能力，降低了來(lái)自不同傳感器數(shù)據(jù)融合的難度。實(shí)現(xiàn)支持汽車(chē)生成BEV(鳥(niǎo)瞰圖)，讓汽車(chē)了解周?chē)h(huán)境就像是“開(kāi)天眼”一般順暢。

　　汽車(chē)能夠更全面地看到世界，是感知大模型的功勞。

　　以毫末的方案為例。在對(duì)真實(shí)物理世界的學(xué)習(xí)中，毫末使用了NeRF(三維重建)技術(shù)整合，將真實(shí)世界建模到三維空間，再加上時(shí)序形成4D向量空間。

　　在此基礎(chǔ)上，通過(guò)引入開(kāi)源的圖文多模態(tài)大模型，實(shí)現(xiàn)4D向量空間到語(yǔ)義空間的對(duì)齊。利用圖文多模態(tài)大模型對(duì)畫(huà)面的描述能力，自動(dòng)駕駛獲得了跟人類(lèi)一樣“識(shí)別萬(wàn)物”的能力。

　　在GPT-4V最新的測(cè)試中，將下面的圖片直接輸入給ChatGPT，就能像人類(lèi)一樣，精準(zhǔn)的描述出圖片環(huán)境中的駕駛策略。

　　接下來(lái)，汽車(chē)想要“動(dòng)”起來(lái)，還需要認(rèn)知大模型的能力，才能給出合適的指令。

　　在語(yǔ)義感知大模型構(gòu)建的“識(shí)別萬(wàn)物”能力的基礎(chǔ)上，毫末通過(guò)構(gòu)建駕駛語(yǔ)言(Drive Language)來(lái)描述駕駛環(huán)境和駕駛意圖，再結(jié)合導(dǎo)航引導(dǎo)信息以及自車(chē)歷史動(dòng)作，并借助外部大語(yǔ)言模型LLM的海量知識(shí)來(lái)輔助給出駕駛解釋和駕駛建議。

　　大語(yǔ)言模型LLM的意義，在于將世界知識(shí)引入到駕駛策略中來(lái)。當(dāng)自動(dòng)駕駛認(rèn)知決策獲得了人類(lèi)社會(huì)的常識(shí)和推理能力(世界知識(shí))，將大幅度提升自動(dòng)駕駛策略的可解釋性和泛化性。

　　如此一來(lái)，在通用認(rèn)知大模型和通用感知大模型的幫助下，自動(dòng)駕駛形成了“看得清”、“看得懂”，還“知道接下來(lái)怎么做”的能力。

　　在引入大模型兩年后，2022年特斯拉在算法中引入時(shí)序網(wǎng)絡(luò)，從而將BEV“全景地圖”升級(jí)為占用網(wǎng)絡(luò)(occupancy Network)。以BEV“看到”的道路上，不再分析路上“有什么”，以判斷汽車(chē)能否通過(guò)的方式，從而決策汽車(chē)下一步“走還是停”。

　　直到2023年8月，特斯拉實(shí)現(xiàn)了依靠車(chē)載攝像頭和神經(jīng)網(wǎng)絡(luò)識(shí)別道路和交通情況，端到端的自動(dòng)駕駛系統(tǒng)(FSD Beta V12)。

　　但即使如此，大模型與自動(dòng)駕駛的深度結(jié)合也才剛剛開(kāi)始，在感知和認(rèn)知的能力上依然有很大的提升空間。

　　三個(gè)能力升級(jí)：純視覺(jué)、更廣、更小

　　在結(jié)合多模態(tài)大模型之后，實(shí)際的效果怎么樣呢?

　　在測(cè)試的實(shí)驗(yàn)結(jié)果中，毫末在純視覺(jué)泊車(chē)、城市NOH(等同于城市領(lǐng)航輔助駕駛)、和小目標(biāo)障礙物檢測(cè)上取得了明顯的進(jìn)展。

　　這意味著，在大模型加入后，自動(dòng)駕駛在能力上，出現(xiàn)了質(zhì)的提升。

　　首先是在泊車(chē)環(huán)境中，驗(yàn)證了純視覺(jué)感知實(shí)現(xiàn)功能的可行性。

　　毫末采用了四個(gè)視野寬廣的魚(yú)眼攝像頭作為其視覺(jué)BEV的感知基礎(chǔ)，獲取汽車(chē)周?chē)?60°的畫(huà)面。然后對(duì)圖像進(jìn)行虛擬相機(jī)轉(zhuǎn)換，通過(guò)backbone技術(shù)提取出畫(huà)面的視覺(jué)特征，并映射到BEV空間。在BEV空間下，完成對(duì)障礙物的輪廓邊界進(jìn)行識(shí)別和測(cè)量。從而識(shí)別墻、柱子、車(chē)輛等各類(lèi)型的邊界輪廓，實(shí)現(xiàn)360°的全視野動(dòng)態(tài)感知。 15米內(nèi)精度可以達(dá)到30cm，2米內(nèi)精度可以高于10cm。

　　以當(dāng)前的結(jié)果來(lái)看，純視覺(jué)的感知方案已經(jīng)可以替代之前USS(超聲波雷達(dá))來(lái)識(shí)別汽車(chē)周邊障礙物的方案。在未來(lái)，毫末完全可能去掉當(dāng)前配置的12個(gè)USS。

　　就像是特斯拉在新款Model 3上去掉所有雷達(dá)一樣，進(jìn)一步增強(qiáng)純視覺(jué)感知的能力，從而節(jié)省一組USS大約150元的制造成本。

　　在城市NOH的進(jìn)展上，毫末已經(jīng)可以實(shí)現(xiàn)對(duì)各類(lèi)交通標(biāo)志、地面箭頭、甚至井蓋等交通場(chǎng)景的全要素覆蓋。

　　例如在紅綠燈的識(shí)別問(wèn)題中，由于國(guó)內(nèi)的紅綠燈形態(tài)不盡相同，道路上橫的、豎的、只顯示讀秒的、聯(lián)排的，甚至因損壞而不停閃爍的都有。對(duì)于人類(lèi)來(lái)說(shuō)，識(shí)別這些紅綠燈及其狀態(tài)輕而易舉，但對(duì)于之前的自動(dòng)駕駛就需要對(duì)這些不同形狀的紅綠燈都進(jìn)行學(xué)習(xí)訓(xùn)練。

　　在通用大模型加入后，自動(dòng)駕駛展現(xiàn)出了萬(wàn)物識(shí)別的泛化能力。大模型在幫助自動(dòng)駕駛積累大量相關(guān)場(chǎng)景的物體的同時(shí)，還幫助優(yōu)化了車(chē)端感知模型，進(jìn)而能夠識(shí)別更多道路場(chǎng)景要素。

　　最后是小目標(biāo)障礙物檢測(cè)上，當(dāng)前毫末城市NOH可以在城市道路場(chǎng)景中，在時(shí)速最高70公里的50米距離外，就能檢測(cè)到大概高度為35cm的小目標(biāo)障礙物，可以做到100%的成功繞障或剎停。

　　“毫末目前引入的大模型方法，本質(zhì)上是在提升車(chē)端模型的泛化性”，毫末智行數(shù)據(jù)智能科學(xué)家賀翔解釋道。

　　從上述的幾項(xiàng)進(jìn)展中可以清晰看到，在大模型的泛化能力引入后，自動(dòng)駕駛開(kāi)始展現(xiàn)出更強(qiáng)的數(shù)據(jù)理解能力、更精準(zhǔn)的物體分類(lèi)認(rèn)識(shí)能力和更強(qiáng)的識(shí)別能力。

　　隨后對(duì)于自動(dòng)駕駛近期的發(fā)展上，賀翔判斷：“我個(gè)人判斷，可能今年到明年之間，是自動(dòng)駕駛黎明之前的黑暗，我們可能會(huì)迎來(lái)一個(gè)巨大的爆發(fā)。”

　　大模型加入，智駕降本戰(zhàn)打響

　　在新能源汽車(chē)時(shí)代下，由中國(guó)極限制造所影響的汽車(chē)供應(yīng)鏈，正在將汽車(chē)消費(fèi)引導(dǎo)至更著重考慮性?xún)r(jià)比的方向。

　　在智駕領(lǐng)域上，Tier1已經(jīng)把成本從此前的幾十萬(wàn)元斷崖式壓縮到了千元級(jí)別。

　　近日，毫末發(fā)布了三款千元級(jí)無(wú)圖NOH產(chǎn)品。HP170、HP370和HP570，產(chǎn)品分別對(duì)應(yīng)算力為5TOPS、32TOPS和72(或100)TOPS。分別對(duì)應(yīng)智駕等級(jí)為包含行泊一體的高速無(wú)圖 NOH、城市記憶行車(chē)和城市全場(chǎng)景無(wú)圖 NOH，售價(jià)為3000、5000和8000元級(jí)。

　　在落地產(chǎn)品上，毫末的產(chǎn)品已經(jīng)搭載至超過(guò)20款車(chē)型。其中包含長(zhǎng)城汽車(chē)旗下的山海炮PHEV版和新摩卡Hi-4S等車(chē)型。

　　高性?xún)r(jià)比的智駕方案，破解了當(dāng)下20萬(wàn)以上汽車(chē)才能搭配高階智駕的局面。以毫末、大疆為首的汽車(chē)Tier1們，正在推動(dòng)10萬(wàn)～20萬(wàn)元主導(dǎo)性?xún)r(jià)比的汽車(chē)產(chǎn)品中，展開(kāi)智駕配置的競(jìng)爭(zhēng)。

　　例如大疆在寶駿云朵靈犀版上配備了行泊一體智能駕駛方案，能夠支持無(wú)圖高速NOA和帶有短途路線記憶功能。但這款汽車(chē)產(chǎn)品起售價(jià)僅為12.58萬(wàn)起。

　　另一邊，相比于大疆、易航智能、紐勱等暫時(shí)僅有高速NOA的汽車(chē)Tier1們，在大模型加持下，擁有城市NOA能力的毫末，能夠讓合作的車(chē)廠們以更高的性?xún)r(jià)比，對(duì)技術(shù)先進(jìn)的廠商開(kāi)啟競(jìng)爭(zhēng)。

　　參考毫末的城市NOA方案，8000元級(jí)的定價(jià)雖不包含激光雷達(dá)，但也在價(jià)格上相對(duì)其他廠商擁有一定的優(yōu)勢(shì)。

　　據(jù)興業(yè)證券測(cè)算，國(guó)內(nèi)能夠?qū)崿F(xiàn)城市NOA功能的硬件成本預(yù)估為2.5-3萬(wàn)元。其中，傳感器成本約為5000-10000元，單顆激光雷達(dá)價(jià)格約為3000-5000元，智駕域控制器成本約為1.5-2.5萬(wàn)元。

　　對(duì)比沒(méi)有激光雷達(dá)的特斯拉方案，在其最新的HW4.0系統(tǒng)內(nèi)，參考Greentheonly 的拆解推算成本。特斯拉HW4.0總計(jì)物料成本約為1500-2100美元。換算為人民幣，特斯拉的方案硬件成本已然超過(guò)萬(wàn)元。

　　便宜可得的高階智駕能力，讓車(chē)廠能夠在不同價(jià)格區(qū)間的產(chǎn)品擁有更高的智能化性?xún)r(jià)比。

　　在我們此前《自動(dòng)駕駛攻城戰(zhàn)，華為小鵬先亮劍》的研究中，大部分自主品牌車(chē)企對(duì)城市NOA的支持主要靠消費(fèi)者在汽車(chē)配置上加價(jià)來(lái)實(shí)現(xiàn)。選購(gòu)城市NOA功能需要的增配的加價(jià)幅度在2-6萬(wàn)元不等。其中，加價(jià)2萬(wàn)升級(jí)的小鵬G6是重點(diǎn)車(chē)型里加價(jià)最少的產(chǎn)品。

　　然而，當(dāng)下的智能化性?xún)r(jià)比競(jìng)爭(zhēng)中，9月25日小鵬在新款P5上砍掉了昂貴的激光雷達(dá)，將高速NOA支持車(chē)型下探至了15-20萬(wàn)區(qū)間。

　　而這也意味著，高階輔助駕駛即將成為15-20萬(wàn)價(jià)格區(qū)間的標(biāo)配。

　　消費(fèi)者可以不用，但智能化的功能產(chǎn)品必須要有。某種意義上，智能汽車(chē)正在走向類(lèi)似于手機(jī)“卷”芯片堆各種配置的老路。

　　而在大模型加持下自動(dòng)駕駛，伴隨著大模型在感知和認(rèn)知能力的泛化，自動(dòng)駕駛也將以越來(lái)越低的價(jià)格，配置到越來(lái)越多的車(chē)型上去。

　　當(dāng)下的自動(dòng)駕駛，距離爆發(fā)越來(lái)越近了。就像是那首《我們走在大路上》所唱，“我們走在大路上，意氣風(fēng)發(fā)斗志昂揚(yáng)……”

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信