• 首頁 > 云計算頻道 > 大模型

    大模型+自動駕駛,發(fā)展到什么階段了

    2023年11月01日 14:53:35   來源:微信公眾號:險峰創(chuàng)

      上個月,馬斯克乘坐一輛搭載了FSD V12自動駕駛系統(tǒng)的Model S,進行了一場45分鐘直播,雖然中間也出現了一些小插曲(比如差點闖了紅燈),但整體效果依然非常驚艷。

      視頻中,這輛Model S能夠輕松繞過障礙物,識別道路各種標志,按照馬斯克的說法,這些操作從頭到尾都是通過端到端AI神經網絡實現的,而非預先編程。

      特斯拉的進展會給國內智駕行業(yè)帶來哪些啟發(fā)?我們距離自動駕駛的終局還有多遠?本期險峰主題沙龍,我們將和幾位行業(yè)專家與初創(chuàng)公司CEO,一起聊聊大模型+自動駕駛的未來。

      我們請到了:

      楊   洋  覺非科技智能駕駛副總裁

      安向京  行深智能創(chuàng)始人

      柴思遠  智譜AI解決方案總監(jiān)

      溫力成  上海人工智能實驗室研究員

      我們聊到了:

      特斯拉的巨大成功,會讓純視覺顛覆掉激光雷達嗎?

      國內廠家和特斯拉的差距有多少?未來能否追得上?

      大模型上車,還有哪些障礙?

      大模型對汽車智能化的影響,會有什么機會點?

      特斯拉會是自動駕駛的終局嗎?

      本次活動由險峰投資人徐真主持,為了保證內容質量,我們對嘉賓進行了匿名整理,并打亂了發(fā)言順序,請勿對號入座。

      也歡迎更多朋友加入險峰社群,一起探討大模型+自動駕駛的新方向。

      01、特斯拉的巨大成功,會讓純視覺顛覆掉激光雷達嗎?

      險峰:先聊一個老生常談的問題,當初特斯拉選擇了純視覺路線,是因為激光雷達的成本太高,但是國內廠商普遍還是選擇了攝像頭+激光雷達的組合,那么這次FSD V12的成功,會不會讓國內廠家也放棄掉激光雷達的路線?

      A:我覺得一定會,因為特斯拉已經把這條路走通了,大家沒有不跟的道理。

      這和GPT的發(fā)展邏輯類似:今年國內大語言模型創(chuàng)業(yè)如火如荼,很多大廠紛紛下場,立下flag要做一款能對標GPT4的產品,因為人家OpenAI已經把東西做出來了,已經驗證的東西,你再去做就非常work,但這也意味著之前那些老的技術路線很快會被放棄掉,同樣的道理,對應到未來自動駕駛也是一樣的。

      B:首先明確一點,純視覺方案是*夠用的,其實人類自己也沒進化出激光雷達,人眼本質就是先感知周圍的2D圖像,經過人腦處理后進行3D深度估算,最后對路況做出判斷,所以只靠雙目視覺完全可以滿完駕駛需求。

      但是,作為一個消費者,因為現在還沒有一種*的 L4 到 L5 級別的自動駕駛方案,那么比較高檔的車型上,配一些激光雷達作為冗余備份,這個需求也是客觀存在的。

      舉個例子,之前特斯拉出現一些撞車的事故,比如前面有一輛翻倒的白色貨車,AI就認為那是天空了,這種錯誤我們人眼也會犯,但如果有激光雷達,可能就會避免掉。

      所以,激光雷達并不是說一定要有或者沒有,主要是看用戶需求,是更關注成本,還是更關注安全。

      C:作為企業(yè),我平時對激光雷達接觸比較多,首先從實際應用的角度,激光雷達確實能解決一些純視覺解決不了的問題,比如夜晚低光照,或者逆光炫光的環(huán)境,純視覺都有天然的劣勢,這時激光雷達就是一個很好的補充。

      回到現實來說,我們也和多家主機廠深入交流過:大家之所以不愿意選擇激光雷達,確實是因為成本太高,但是真正用過之后,工程師都說特別爽,實際效果上看還是有它存在的價值。

      當然,因為成本高,現在也出現了一些激光雷達的替代方案,比如4D毫米波,其實就是介于傳統(tǒng)毫米波和激光雷達之間的產物;另外,純視覺方案是不是就一定沒問題,我認為現在判斷也還太早,可能還需要經歷更復雜的場景、更多的里程之后再觀察。

      D:就我的理解,大模型的核心能力是通過Transformer建立起各數據之間的關聯,剛才幾位老師也就提到,純視覺*的缺點,它是一個二維的傳感器,而激光雷達是三維的,但本質上,二維場景和三維場景是有關聯的。

      那我們是不是能通過大模型,把2D和3D數據關聯起來,讓它從某種意義上更深度的理解駕駛場景,產生一些不一樣的涌現?我覺得可以拭目以待,如果這一天真的到來,可能2D視覺也好、3D激光雷達也好、 4D毫米波也好,這些數據本質上是同一個數據,無論用哪一個數據,或許都可以能解決自動駕駛的問題。

      我想到另一個問題,現在各主機廠都是拼傳感器數量,我有多少顆激光雷達、攝像頭、毫米波雷達;更多的傳感器數量自然也意味著對算力的要求更高,是100、200還是500TOPS,但是事實上,特斯拉已經用實踐證明,對算力需求可能并不需要那么高。

      我們總是認為,未來汽車會越來越智能,但是大模型驅動下的自動駕駛,是不是會讓汽車越來越不智能?比如現在的算力分布,一部分在云端,一部分在車端,那么未來隨著大模型的發(fā)展,云端算力越來越高,車端反而就不需要太智能,汽車只要忠實地執(zhí)行云端的指令,可能就已經足夠了,這是我的看法,謝謝。

      02、國內廠家和特斯拉的差距有多少?未來能否追得上?

      A:從這次FSD V12 的表現,結合我對國內主機廠的一些了解,這個差距可能會在一到兩年左右,能否追的上主要是看兩個方面:

      首先是算法層面,我們知道特斯拉用的芯片算力只有144TOPS(萬億次操作每秒),國內廠商至少都是 500 甚至上千TOPS,所以特斯拉對算力的利用效率是非常恐怖的,這是*個需要追趕的。

      此外,過去數年里,已經有數百萬輛特斯拉汽車在收集真實環(huán)境里的道路數據,數據的積累是第二個需要追趕的,當然大模型在這里面也可以發(fā)揮一定的作用,比如在虛擬世界進行更好的仿真模擬,減少這種數據采集的周期。

      03、大模型上車,還有哪些障礙?

      A:首先肯定是算力,現在市場上可以部署大模型的算力平臺非常少,國內的一些頭部主機廠也在積極布局,但目前看就只有英偉達和特斯拉,其他的算力平臺暫時還沒有投入使用。

      這里所說的算力不是車端算力,而是云端服務器算力,這是大模型部署的前提,現在訓練一個文本大語言模型,就已經需要上萬張的A100卡,如果再把圖像信息也加進來,對算力的要求只多不少;比如說像wayve ,我了解到他們是跟微軟的 Azure 合作,用了很多張卡,訓練了很久才得到的結果。

      第二點就是時間,比如傳統(tǒng)的圖像訓練,可能有個百萬幀級別,就能訓練出一個小模型,但如果是大模型再涉及到多模態(tài)的話,背后是要有數千萬幀的訓練量;這其中還有一個問題是,業(yè)界對于這種多模態(tài)的大模型訓練,包括文本和視頻的對齊,其實都還在探索的階段,沒有一條像GPT一樣很明確的路,說你按照這條路走,就一定會得到涌現能力,只能是靠不斷嘗試。

      所以無論算力還是時間,背后都代表著需要大量的資金,需要非常有實力的玩家才能去做這件事情。

      04、大模型+智能化對汽車的影響,會有什么機會點?

      A:一個方向是大模型帶來車內交互方式的改變。其實現在的智能座艙本質還是手機的延續(xù),但是我們的雙手要開車,所以車內場景天然適合語音交互而不是觸屏,那怎樣把語音跟多模交互結合起來,再加入一些手勢識別、眼球識別,最后把這些信息轉換成車可以識別的指令,這是未來多模態(tài)大模型可以期待的事情。

      從我們自己看來,目前整個生態(tài)和技術已經到了一個快爆發(fā)的階段,可能只差一個類似iPad上《水果忍者》這樣的殺手級應用,由此帶來一些基于車用大模型的應用層開發(fā),對這個生態(tài)我還是非?春玫。

      另一個方向可能暫時還沒有被太多人關注,就是當車輛完成智能化之后,里面很多的算力,其實是可以作為一個算力中心或者網關來使用的,比如現在英偉達的顯卡很貴,那是不是可以把車上這些算力利用起來,用分布式計算替代一部分云計算,可能也是一個方向,需要有人搭建一些基礎設施和技術工具來解決。

      險峰:這里稍微補充一下險峰的觀點,我們對自動駕駛還是比較樂觀的,覺得未來一定會有新的機會出現。

      其實剛才大家的討論,都基于一個認知:即一定要用大模型的方式去訓練自動駕駛算法,因此才需要算力、數據等大量資源的支撐。但就像當年在漸進式從L2到L4、一步式直接到L4的討論一樣,未來我們是否可以先用一些專用小模型去解決部分特殊場景?它可能不像大模型需要那么高成本,但可以先跑起來去解決現實問題

      整個自動駕駛算法訓練、測試的鏈路非常長,如果能在其中一些環(huán)節(jié)降低成本,企業(yè)其實就可以獲得營收,這可能是一家初創(chuàng)公司相對低投入、比較好切入的點。

      其實特斯拉強就強在,能把學術上的東西實際地做出來應用到車上,雖然工程化問題是自動駕駛邁不過的一道坎,但現在說已經到算法的終局形態(tài)也為時尚早,路線雖然在收斂、但也一直在迭代,永遠期待有更優(yōu)解。

      05、特斯拉會是自動駕駛的終局嗎?

      險峰:從發(fā)展歷程來看,特斯拉2020年引入BEV,21年引入Transformer,再到今天它展示的 FSD V12,特斯拉一直在把學術最前沿的東西不斷地工程化,到今天它基本已經摸到了自動駕駛的及格線,甚至是到了七八十分的水平,那么特斯拉下一代的world model,會是自動駕駛的一個*解決方案嗎?大家對對此怎么看?我們不妨來暢想一下。

      A:我覺得汽車的智能化,核心不僅僅是省掉了一個駕駛員,而是讓運輸載具實現了信息化。比如一些封閉廠區(qū)內,無人載具可以和工廠的TMS或者MES 系統(tǒng)深度地融合,直接成為它的一部分,以前你需要調配一些第三方物流,現在完全不需要,運力會變成像交流電,插上插座就能用一樣方便。

      從這個角度上來講,未來的無人駕駛會導致汽車的形態(tài)發(fā)生分化,會根據不同場景誕生出很多不同的物種,而不是像現在一樣,只有乘用車、商務車、貨運車之分;比如未來廠區(qū)里的運輸車,會和公路上跑的運輸車完全不一樣,不僅是外觀不同,能力也完全不同,所以我不認為特斯拉的路線會是一個*解決方案,它會是一個思路、一個方法論,但未來肯定還會有別的方案不斷加入到系統(tǒng)中來。

      B:我也覺得,現在談終局可能還有點早,就像剛才主持人說的,特斯拉能夠比我們超前兩到三年,探索出行業(yè)大方向可能是什么,推動整個行業(yè)加速往終局的方向上走,這些貢獻我覺得怎么夸都不為過,但要真正實現 L4 甚至 L5 的*模式,肯定也需要靠整個行業(yè)一起的努力和貢獻。

      C:太遠的終局確實不好判斷,我覺得首先能確定的是,大模型*的推理能力,一定是能夠應用到自動駕駛中的,包括它能給你一些更好的決策,并且還能給你解釋出原因,這個目前已經有一些公司在做了;但大模型的學習效率和速度也還需要迭代,比如現在整個云端要很大算力、很多算據,這還是一個成本很高的事情,還有很大的優(yōu)化空間,解決了這些問題之后,才有可能讓大模型給每個人提供一些個性化的服務,比如更個性化的交互,或者你更喜歡的駕駛風格等等。

      D:特別同意剛才嘉賓的一句話——自動駕駛終局的本質,是“如何讓機器人理解我們所處的真實世界”,包括特斯拉的world model,也都是在目前自動駕駛的范式之外,探索有沒有更好地去推理和理解這個世界的方式。

      所以,如果未來有一套算法,能夠讓通用的機器人非常好地去理解我們的世界的時候,自動駕駛這件事也就迎刃而解了。

      這方面,我覺得不是學界在引領業(yè)界,而是反過來,業(yè)界在領導學界,因為業(yè)界才能接觸到真實情況下駕駛的一手資料和數據,從而能發(fā)現一些我們在實驗室里模擬不了的東西,所以,自動駕駛終局需要學界和業(yè)界共同去努力,不斷加強溝通,對此我個人還是非常樂觀的,希望這一天盡早到來。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協會聯合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。