大模型+自動(dòng)駕駛，發(fā)展到什么階段了

2023年11月01日 14:53:35 險(xiǎn)峰 來(lái)源：微信公眾號(hào)：險(xiǎn)峰創(chuàng)

　　上個(gè)月，馬斯克乘坐一輛搭載了FSD V12自動(dòng)駕駛系統(tǒng)的Model S，進(jìn)行了一場(chǎng)45分鐘直播，雖然中間也出現(xiàn)了一些小插曲(比如差點(diǎn)闖了紅燈)，但整體效果依然非常驚艷。

　　視頻中，這輛Model S能夠輕松繞過(guò)障礙物，識(shí)別道路各種標(biāo)志，按照馬斯克的說(shuō)法，這些操作從頭到尾都是通過(guò)端到端AI神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的，而非預(yù)先編程。

　　特斯拉的進(jìn)展會(huì)給國(guó)內(nèi)智駕行業(yè)帶來(lái)哪些啟發(fā)?我們距離自動(dòng)駕駛的終局還有多遠(yuǎn)?本期險(xiǎn)峰主題沙龍，我們將和幾位行業(yè)專家與初創(chuàng)公司CEO，一起聊聊大模型+自動(dòng)駕駛的未來(lái)。

　　我們請(qǐng)到了：

　　楊洋覺(jué)非科技智能駕駛副總裁

　　安向京行深智能創(chuàng)始人

　　柴思遠(yuǎn) 智譜AI解決方案總監(jiān)

　　溫力成上海人工智能實(shí)驗(yàn)室研究員

　　我們聊到了：

　　特斯拉的巨大成功，會(huì)讓純視覺(jué)顛覆掉激光雷達(dá)嗎？

　　國(guó)內(nèi)廠家和特斯拉的差距有多少？未來(lái)能否追得上？

　　大模型上車，還有哪些障礙？

　　大模型對(duì)汽車智能化的影響，會(huì)有什么機(jī)會(huì)點(diǎn)？

　　特斯拉會(huì)是自動(dòng)駕駛的終局嗎？

　　本次活動(dòng)由險(xiǎn)峰投資人徐真主持，為了保證內(nèi)容質(zhì)量，我們對(duì)嘉賓進(jìn)行了匿名整理，并打亂了發(fā)言順序，請(qǐng)勿對(duì)號(hào)入座。

　　也歡迎更多朋友加入險(xiǎn)峰社群，一起探討大模型+自動(dòng)駕駛的新方向。

　　01、特斯拉的巨大成功，會(huì)讓純視覺(jué)顛覆掉激光雷達(dá)嗎？

　　險(xiǎn)峰：先聊一個(gè)老生常談的問(wèn)題，當(dāng)初特斯拉選擇了純視覺(jué)路線，是因?yàn)榧す饫走_(dá)的成本太高，但是國(guó)內(nèi)廠商普遍還是選擇了攝像頭+激光雷達(dá)的組合，那么這次FSD V12的成功，會(huì)不會(huì)讓國(guó)內(nèi)廠家也放棄掉激光雷達(dá)的路線?

　　A：我覺(jué)得一定會(huì)，因?yàn)樘厮估呀?jīng)把這條路走通了，大家沒(méi)有不跟的道理。

　　這和GPT的發(fā)展邏輯類似：今年國(guó)內(nèi)大語(yǔ)言模型創(chuàng)業(yè)如火如荼，很多大廠紛紛下場(chǎng)，立下flag要做一款能對(duì)標(biāo)GPT4的產(chǎn)品，因?yàn)槿思襉penAI已經(jīng)把東西做出來(lái)了，已經(jīng)驗(yàn)證的東西，你再去做就非常work，但這也意味著之前那些老的技術(shù)路線很快會(huì)被放棄掉，同樣的道理，對(duì)應(yīng)到未來(lái)自動(dòng)駕駛也是一樣的。

　　B：首先明確一點(diǎn)，純視覺(jué)方案是*夠用的，其實(shí)人類自己也沒(méi)進(jìn)化出激光雷達(dá)，人眼本質(zhì)就是先感知周圍的2D圖像，經(jīng)過(guò)人腦處理后進(jìn)行3D深度估算，最后對(duì)路況做出判斷，所以只靠雙目視覺(jué)完全可以滿完駕駛需求。

　　但是，作為一個(gè)消費(fèi)者，因?yàn)楝F(xiàn)在還沒(méi)有一種*的 L4 到 L5 級(jí)別的自動(dòng)駕駛方案，那么比較高檔的車型上，配一些激光雷達(dá)作為冗余備份，這個(gè)需求也是客觀存在的。

　　舉個(gè)例子，之前特斯拉出現(xiàn)一些撞車的事故，比如前面有一輛翻倒的白色貨車，AI就認(rèn)為那是天空了，這種錯(cuò)誤我們?nèi)搜垡矔?huì)犯，但如果有激光雷達(dá)，可能就會(huì)避免掉。

　　所以，激光雷達(dá)并不是說(shuō)一定要有或者沒(méi)有，主要是看用戶需求，是更關(guān)注成本，還是更關(guān)注安全。

　　C：作為企業(yè)，我平時(shí)對(duì)激光雷達(dá)接觸比較多，首先從實(shí)際應(yīng)用的角度，激光雷達(dá)確實(shí)能解決一些純視覺(jué)解決不了的問(wèn)題，比如夜晚低光照，或者逆光炫光的環(huán)境，純視覺(jué)都有天然的劣勢(shì)，這時(shí)激光雷達(dá)就是一個(gè)很好的補(bǔ)充。

　　回到現(xiàn)實(shí)來(lái)說(shuō)，我們也和多家主機(jī)廠深入交流過(guò)：大家之所以不愿意選擇激光雷達(dá)，確實(shí)是因?yàn)槌杀咎�，但是真正用過(guò)之后，工程師都說(shuō)特別爽，實(shí)際效果上看還是有它存在的價(jià)值。

　　當(dāng)然，因?yàn)槌杀靖撸F(xiàn)在也出現(xiàn)了一些激光雷達(dá)的替代方案，比如4D毫米波，其實(shí)就是介于傳統(tǒng)毫米波和激光雷達(dá)之間的產(chǎn)物;另外，純視覺(jué)方案是不是就一定沒(méi)問(wèn)題，我認(rèn)為現(xiàn)在判斷也還太早，可能還需要經(jīng)歷更復(fù)雜的場(chǎng)景、更多的里程之后再觀察。

　　D：就我的理解，大模型的核心能力是通過(guò)Transformer建立起各數(shù)據(jù)之間的關(guān)聯(lián)，剛才幾位老師也就提到，純視覺(jué)*的缺點(diǎn)，它是一個(gè)二維的傳感器，而激光雷達(dá)是三維的，但本質(zhì)上，二維場(chǎng)景和三維場(chǎng)景是有關(guān)聯(lián)的。

　　那我們是不是能通過(guò)大模型，把2D和3D數(shù)據(jù)關(guān)聯(lián)起來(lái)，讓它從某種意義上更深度的理解駕駛場(chǎng)景，產(chǎn)生一些不一樣的涌現(xiàn)?我覺(jué)得可以拭目以待，如果這一天真的到來(lái)，可能2D視覺(jué)也好、3D激光雷達(dá)也好、 4D毫米波也好，這些數(shù)據(jù)本質(zhì)上是同一個(gè)數(shù)據(jù)，無(wú)論用哪一個(gè)數(shù)據(jù)，或許都可以能解決自動(dòng)駕駛的問(wèn)題。

　　我想到另一個(gè)問(wèn)題，現(xiàn)在各主機(jī)廠都是拼傳感器數(shù)量，我有多少顆激光雷達(dá)、攝像頭、毫米波雷達(dá);更多的傳感器數(shù)量自然也意味著對(duì)算力的要求更高，是100、200還是500TOPS，但是事實(shí)上，特斯拉已經(jīng)用實(shí)踐證明，對(duì)算力需求可能并不需要那么高。

　　我們總是認(rèn)為，未來(lái)汽車會(huì)越來(lái)越智能，但是大模型驅(qū)動(dòng)下的自動(dòng)駕駛，是不是會(huì)讓汽車越來(lái)越不智能？比如現(xiàn)在的算力分布，一部分在云端，一部分在車端，那么未來(lái)隨著大模型的發(fā)展，云端算力越來(lái)越高，車端反而就不需要太智能，汽車只要忠實(shí)地執(zhí)行云端的指令，可能就已經(jīng)足夠了，這是我的看法，謝謝。

　　02、國(guó)內(nèi)廠家和特斯拉的差距有多少？未來(lái)能否追得上？

　　A：從這次FSD V12 的表現(xiàn)，結(jié)合我對(duì)國(guó)內(nèi)主機(jī)廠的一些了解，這個(gè)差距可能會(huì)在一到兩年左右，能否追的上主要是看兩個(gè)方面：

　　首先是算法層面，我們知道特斯拉用的芯片算力只有144TOPS(萬(wàn)億次操作每秒)，國(guó)內(nèi)廠商至少都是 500 甚至上千TOPS，所以特斯拉對(duì)算力的利用效率是非常恐怖的，這是*個(gè)需要追趕的。

　　此外，過(guò)去數(shù)年里，已經(jīng)有數(shù)百萬(wàn)輛特斯拉汽車在收集真實(shí)環(huán)境里的道路數(shù)據(jù)，數(shù)據(jù)的積累是第二個(gè)需要追趕的，當(dāng)然大模型在這里面也可以發(fā)揮一定的作用，比如在虛擬世界進(jìn)行更好的仿真模擬，減少這種數(shù)據(jù)采集的周期。

　　03、大模型上車，還有哪些障礙？

　　A：首先肯定是算力，現(xiàn)在市場(chǎng)上可以部署大模型的算力平臺(tái)非常少，國(guó)內(nèi)的一些頭部主機(jī)廠也在積極布局，但目前看就只有英偉達(dá)和特斯拉，其他的算力平臺(tái)暫時(shí)還沒(méi)有投入使用。

　　這里所說(shuō)的算力不是車端算力，而是云端服務(wù)器算力，這是大模型部署的前提，現(xiàn)在訓(xùn)練一個(gè)文本大語(yǔ)言模型，就已經(jīng)需要上萬(wàn)張的A100卡，如果再把圖像信息也加進(jìn)來(lái)，對(duì)算力的要求只多不少;比如說(shuō)像wayve ，我了解到他們是跟微軟的 Azure 合作，用了很多張卡，訓(xùn)練了很久才得到的結(jié)果。

　　第二點(diǎn)就是時(shí)間，比如傳統(tǒng)的圖像訓(xùn)練，可能有個(gè)百萬(wàn)幀級(jí)別，就能訓(xùn)練出一個(gè)小模型，但如果是大模型再涉及到多模態(tài)的話，背后是要有數(shù)千萬(wàn)幀的訓(xùn)練量;這其中還有一個(gè)問(wèn)題是，業(yè)界對(duì)于這種多模態(tài)的大模型訓(xùn)練，包括文本和視頻的對(duì)齊，其實(shí)都還在探索的階段，沒(méi)有一條像GPT一樣很明確的路，說(shuō)你按照這條路走，就一定會(huì)得到涌現(xiàn)能力，只能是靠不斷嘗試。

　　所以無(wú)論算力還是時(shí)間，背后都代表著需要大量的資金，需要非常有實(shí)力的玩家才能去做這件事情。

　　04、大模型+智能化對(duì)汽車的影響，會(huì)有什么機(jī)會(huì)點(diǎn)？

　　A：一個(gè)方向是大模型帶來(lái)車內(nèi)交互方式的改變。其實(shí)現(xiàn)在的智能座艙本質(zhì)還是手機(jī)的延續(xù)，但是我們的雙手要開(kāi)車，所以車內(nèi)場(chǎng)景天然適合語(yǔ)音交互而不是觸屏，那怎樣把語(yǔ)音跟多模交互結(jié)合起來(lái)，再加入一些手勢(shì)識(shí)別、眼球識(shí)別，最后把這些信息轉(zhuǎn)換成車可以識(shí)別的指令，這是未來(lái)多模態(tài)大模型可以期待的事情。

　　從我們自己看來(lái)，目前整個(gè)生態(tài)和技術(shù)已經(jīng)到了一個(gè)快爆發(fā)的階段，可能只差一個(gè)類似iPad上《水果忍者》這樣的殺手級(jí)應(yīng)用，由此帶來(lái)一些基于車用大模型的應(yīng)用層開(kāi)發(fā)，對(duì)這個(gè)生態(tài)我還是非�？春玫摹�

　　另一個(gè)方向可能暫時(shí)還沒(méi)有被太多人關(guān)注，就是當(dāng)車輛完成智能化之后，里面很多的算力，其實(shí)是可以作為一個(gè)算力中心或者網(wǎng)關(guān)來(lái)使用的，比如現(xiàn)在英偉達(dá)的顯卡很貴，那是不是可以把車上這些算力利用起來(lái)，用分布式計(jì)算替代一部分云計(jì)算，可能也是一個(gè)方向，需要有人搭建一些基礎(chǔ)設(shè)施和技術(shù)工具來(lái)解決。

　　險(xiǎn)峰：這里稍微補(bǔ)充一下險(xiǎn)峰的觀點(diǎn)，我們對(duì)自動(dòng)駕駛還是比較樂(lè)觀的，覺(jué)得未來(lái)一定會(huì)有新的機(jī)會(huì)出現(xiàn)。

　　其實(shí)剛才大家的討論，都基于一個(gè)認(rèn)知：即一定要用大模型的方式去訓(xùn)練自動(dòng)駕駛算法，因此才需要算力、數(shù)據(jù)等大量資源的支撐。但就像當(dāng)年在漸進(jìn)式從L2到L4、一步式直接到L4的討論一樣，未來(lái)我們是否可以先用一些專用小模型去解決部分特殊場(chǎng)景？它可能不像大模型需要那么高成本，但可以先跑起來(lái)去解決現(xiàn)實(shí)問(wèn)題。

　　整個(gè)自動(dòng)駕駛算法訓(xùn)練、測(cè)試的鏈路非常長(zhǎng)，如果能在其中一些環(huán)節(jié)降低成本，企業(yè)其實(shí)就可以獲得營(yíng)收，這可能是一家初創(chuàng)公司相對(duì)低投入、比較好切入的點(diǎn)。

　　其實(shí)特斯拉強(qiáng)就強(qiáng)在，能把學(xué)術(shù)上的東西實(shí)際地做出來(lái)應(yīng)用到車上，雖然工程化問(wèn)題是自動(dòng)駕駛邁不過(guò)的一道坎，但現(xiàn)在說(shuō)已經(jīng)到算法的終局形態(tài)也為時(shí)尚早，路線雖然在收斂、但也一直在迭代，永遠(yuǎn)期待有更優(yōu)解。

　　05、特斯拉會(huì)是自動(dòng)駕駛的終局嗎？

　　險(xiǎn)峰：從發(fā)展歷程來(lái)看，特斯拉2020年引入BEV，21年引入Transformer，再到今天它展示的 FSD V12，特斯拉一直在把學(xué)術(shù)最前沿的東西不斷地工程化，到今天它基本已經(jīng)摸到了自動(dòng)駕駛的及格線，甚至是到了七八十分的水平，那么特斯拉下一代的world model，會(huì)是自動(dòng)駕駛的一個(gè)*解決方案嗎?大家對(duì)對(duì)此怎么看?我們不妨來(lái)暢想一下。

　　A：我覺(jué)得汽車的智能化，核心不僅僅是省掉了一個(gè)駕駛員，而是讓運(yùn)輸載具實(shí)現(xiàn)了信息化。比如一些封閉廠區(qū)內(nèi)，無(wú)人載具可以和工廠的TMS或者M(jìn)ES 系統(tǒng)深度地融合，直接成為它的一部分，以前你需要調(diào)配一些第三方物流，現(xiàn)在完全不需要，運(yùn)力會(huì)變成像交流電，插上插座就能用一樣方便。

　　從這個(gè)角度上來(lái)講，未來(lái)的無(wú)人駕駛會(huì)導(dǎo)致汽車的形態(tài)發(fā)生分化，會(huì)根據(jù)不同場(chǎng)景誕生出很多不同的物種，而不是像現(xiàn)在一樣，只有乘用車、商務(wù)車、貨運(yùn)車之分;比如未來(lái)廠區(qū)里的運(yùn)輸車，會(huì)和公路上跑的運(yùn)輸車完全不一樣，不僅是外觀不同，能力也完全不同，所以我不認(rèn)為特斯拉的路線會(huì)是一個(gè)*解決方案，它會(huì)是一個(gè)思路、一個(gè)方法論，但未來(lái)肯定還會(huì)有別的方案不斷加入到系統(tǒng)中來(lái)。

　　B：我也覺(jué)得，現(xiàn)在談終局可能還有點(diǎn)早，就像剛才主持人說(shuō)的，特斯拉能夠比我們超前兩到三年，探索出行業(yè)大方向可能是什么，推動(dòng)整個(gè)行業(yè)加速往終局的方向上走，這些貢獻(xiàn)我覺(jué)得怎么夸都不為過(guò)，但要真正實(shí)現(xiàn) L4 甚至 L5 的*模式，肯定也需要靠整個(gè)行業(yè)一起的努力和貢獻(xiàn)。

　　C：太遠(yuǎn)的終局確實(shí)不好判斷，我覺(jué)得首先能確定的是，大模型*的推理能力，一定是能夠應(yīng)用到自動(dòng)駕駛中的，包括它能給你一些更好的決策，并且還能給你解釋出原因，這個(gè)目前已經(jīng)有一些公司在做了;但大模型的學(xué)習(xí)效率和速度也還需要迭代，比如現(xiàn)在整個(gè)云端要很大算力、很多算據(jù)，這還是一個(gè)成本很高的事情，還有很大的優(yōu)化空間，解決了這些問(wèn)題之后，才有可能讓大模型給每個(gè)人提供一些個(gè)性化的服務(wù)，比如更個(gè)性化的交互，或者你更喜歡的駕駛風(fēng)格等等。

　　D：特別同意剛才嘉賓的一句話——自動(dòng)駕駛終局的本質(zhì)，是“如何讓機(jī)器人理解我們所處的真實(shí)世界”，包括特斯拉的world model，也都是在目前自動(dòng)駕駛的范式之外，探索有沒(méi)有更好地去推理和理解這個(gè)世界的方式。

　　所以，如果未來(lái)有一套算法，能夠讓通用的機(jī)器人非常好地去理解我們的世界的時(shí)候，自動(dòng)駕駛這件事也就迎刃而解了。

　　這方面，我覺(jué)得不是學(xué)界在引領(lǐng)業(yè)界，而是反過(guò)來(lái)，業(yè)界在領(lǐng)導(dǎo)學(xué)界，因?yàn)闃I(yè)界才能接觸到真實(shí)情況下駕駛的一手資料和數(shù)據(jù)，從而能發(fā)現(xiàn)一些我們?cè)趯?shí)驗(yàn)室里模擬不了的東西，所以，自動(dòng)駕駛終局需要學(xué)界和業(yè)界共同去努力，不斷加強(qiáng)溝通，對(duì)此我個(gè)人還是非常樂(lè)觀的，希望這一天盡早到來(lái)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信