爆火的ChatGPT 能讓自動駕駛成為老司機嗎？

2023年03月01日 11:03:26 周文斌 來源：光錐智能

　　文丨光錐智能，作者丨周文斌

　　元宇宙已經(jīng)涼透了，NFT也快淹死了，但中國互聯(lián)網(wǎng)不知道，中國互聯(lián)網(wǎng)不在乎，因為現(xiàn)在它的眼里只有ChatGPT......

　　這是最近兩個月來中國互聯(lián)網(wǎng)的真實寫照，大家都在為ChatGPT狂歡，周鴻祎更是語出驚人：“任何行業(yè)的APP、軟件、網(wǎng)站、應(yīng)用，如果加持上GPT的能力，都值得重塑一遍。”

　　就像是發(fā)令槍扣動了扳機，在ChatGPT之后，人工智能直接開啟了科技企業(yè)的狂熱競賽。國外從微軟到谷歌;國內(nèi)從百度到騰訊、再從阿里到字節(jié)，巨頭們紛紛下注，買定離手。

　　2月份，這把火終于燒到了自動駕駛領(lǐng)域，2月17日，毫末宣布將自動駕駛認知大模型正式升級為DriveGPT，并將在4月份公布進展。目前，毫末智行已完成DriveGPT的模型搭建和第一階段數(shù)據(jù)跑通，可以對標(biāo)GPT-2的水平。

　　而在2月23日的財報發(fā)布會上，百度也專門提到要將文心一言與Apollo自動駕駛結(jié)合。按照部署，未來文心一言背后大模型技術(shù)在自動駕駛上的應(yīng)用，將加深車輛對復(fù)雜城市路況的理解，進一步提升自動駕駛安全性和可靠性。

　　要知道，在ChatGPT之前，自動駕駛一直是人工智能最具代表性的應(yīng)用，而ChatGPT作為人工智能領(lǐng)域的革命性突破，必然也將對自動駕駛帶來影響。

　　關(guān)于這個問題，光錐智能也曾詢問ChatGPT。

　　ChatGPT“認為”，自動駕駛作為一種新興技術(shù)，雖然可能面臨一些道德問題，但仍然在安全性、經(jīng)濟性和可靠性方面對人類生活產(chǎn)生深刻影響。而作為一種自然語言處理的人工智能模型，ChatGPT可以在智能交互、數(shù)據(jù)處理，路況分析、人機交互，以及在社會和倫理問題的研究上提供支持。

　　那么具體而言，ChatGPT會給自動駕駛的發(fā)展帶來哪些變革呢?同樣作為人工智能的應(yīng)用方向，它又和自動駕駛有著怎樣的淵源?又會給自動駕駛的發(fā)展路徑帶來哪些啟示?

　　一、ChatGPT和自動駕駛的淵源

　　ChatGPT能直接應(yīng)用在自動駕駛領(lǐng)域嗎?

　　談起這個問題，了解自動駕駛和ChatGPT的人第一反應(yīng)肯定都是“不行”。

　　原因很簡單，ChatGTP本質(zhì)上是一種自然語言處理技術(shù)，它主要處理文本數(shù)據(jù)來實現(xiàn)對人類語言的理解和生成。但自動駕駛則更多涉及車載傳感器，如攝像頭帶來的圖像、以及激光雷達和毫米波雷達帶來的雷達數(shù)據(jù)。

　　所以雖然同樣屬于人工智能技術(shù)，但兩者看起來并沒有太多直接的關(guān)系。當(dāng)然，這樣的區(qū)分只是局限在應(yīng)用場景的不同，如果回溯背后的技術(shù)原理，ChatGPT與目前自動駕駛使用的主流技術(shù)其實有相當(dāng)多的共同特點。

　　毫末智行CEO顧維灝介紹，毫末推出的人駕自監(jiān)督認知大模型就已借鑒了ChatGPT的實現(xiàn)思路，采用RLHF(人類反饋強化學(xué)習(xí))技術(shù)，通過引入真實人駕接管數(shù)據(jù)，對自動駕駛認知決策模型進行持續(xù)優(yōu)化。

　　我們知道，ChatGPT是基于Transformer訓(xùn)練的NLP大模型。2017年，谷歌在NIPS發(fā)表論文《Attention is all you need》提出了Transformer網(wǎng)絡(luò)結(jié)構(gòu)。之后，由于其優(yōu)秀的長序列處理能力，更高的并行計算效率，無序手動設(shè)計特征，以及更強的語義表達能力，Transformer橫掃NLP領(lǐng)域并成為最主流的訓(xùn)練模型。

　　簡單來說，Transformer極大程度上提高了超大規(guī)模數(shù)據(jù)訓(xùn)練的效率，所以在NLP領(lǐng)域取得成功之后，Transformer就延伸出了許多變種被應(yīng)用到更多場景，其中就包括自動駕駛需要的圖像識別和目標(biāo)檢測。

　　比如ViT(Vision Transformer)模型，它是一種基于Transformer的視覺模型，可以在不使用CNN卷積神經(jīng)網(wǎng)絡(luò)的情況下進行圖像分類。或者DETR，一種基于 Transformer的目標(biāo)檢測模型，它可以同時進行目標(biāo)檢測和分類。

　　2021年6月，在頂級峰會CVPR 2021上，時任特斯拉AI高級總監(jiān)的Andrej Karpathy首次提出將Transformer運用到自動駕駛的大規(guī)模無監(jiān)督訓(xùn)練中。(今年2月初，Karpathy在Twitter上宣布再次加入OpenAI。)

　　如今，在關(guān)于Transformer在自動駕駛方面的應(yīng)用上，特斯拉已經(jīng)有了許多具體場景，比如從BEV感知到占用網(wǎng)絡(luò)。

　　最早，特斯拉在車輛感知上使用的是Occupancy Tracker，即在每個相機上單獨進行感知，再將不同相機感知到的結(jié)果進行融合。

　　但這種方式存在許多問題，比如不同攝像頭之間的信息融合困難，鬼探頭等遮擋區(qū)域的預(yù)測困難，以及一些巨大物體(當(dāng)一個物體跨過兩個攝像頭的范圍后)的預(yù)測困難等等。

　　面對這些問題，特斯拉AI團隊希望利用神經(jīng)網(wǎng)絡(luò)將圖像空間映射到BEV空間。

　　所以在2021年的AI DAY上，特斯拉提出了新的BEV感知方案，可以跨過傳統(tǒng)圖像縫合技術(shù)，直接將所有攝像頭采集的圖像矯正后，一并輸入到神經(jīng)網(wǎng)絡(luò)提取特征。然后再基于Transformer將這些特征進行關(guān)聯(lián)從而投影到一個BEV空間上，最終獲得一個反應(yīng)周圍環(huán)境的鳥瞰圖。

　　到2022年底的AI DAY，特斯拉又提出了occupancy network 占用網(wǎng)絡(luò)，這是一種新的基于機器學(xué)習(xí)的三維重建方法，依靠它特斯拉可以把車輛行駛時遮擋靜止物體和動態(tài)物體通過有顏色的小方塊表示出來，以此來增加特斯拉的視野范圍，讓特斯拉可以對接下來的路徑規(guī)劃有更多信息。

　　這些其實都是ChatGPT同源技術(shù)在自動駕駛方面的應(yīng)用，而具體到國內(nèi)，在特斯拉首次提到將Transformer運用到自動駕駛2個月后，毫末就曾公開表示正在利用Transformer進行超大規(guī)模的感知訓(xùn)練，并且后期有可能將Transformer引入到規(guī)劃和控制中。

　　到2022年，小鵬在1024科技日中也提到使用大模型打通XNGP全場景能力的觀點;百度Apollo也認為文心大模型將是提升自動駕駛能力的核心驅(qū)動力。

　　總之，在嘗到Transformer的甜頭之后，自動駕駛企業(yè)紛紛將其引入到自動駕駛系統(tǒng)中，以此來實現(xiàn)系統(tǒng)感知智能與認知智能的優(yōu)化。

　　再回到ChatGPT，我們知道ChatGPT基于GPT-3訓(xùn)練，但這個模型發(fā)布于2020年5月，雖然當(dāng)時在數(shù)據(jù)規(guī)模上做出了突破，但卻并沒有像ChatGPT一樣一鳴驚人。

　　關(guān)于這一點，顧維灝認為，實現(xiàn)GPT3到ChatGPT的龍門一躍，最重要的是ChatGPT模型使用了“利用人類反饋強化學(xué)習(xí)RLHF”的訓(xùn)練方式，更好的利用了人類知識，讓模型自己能夠判斷其答案的質(zhì)量，逐步提升自己給出高質(zhì)量答案的能力。這個思路，與毫末在自動駕駛認知決策上的思路不謀而合。

　　如同GPT-1到GPT-2一樣，毫末在自動駕駛認知的訓(xùn)練最開始也是從引入個別場景，讓模型進行端到端的模仿學(xué)習(xí)開始的，這個階段算法直接擬合人類的駕駛行為。在這個基礎(chǔ)上，自動駕駛的第二階段引入海量的正常人駕駛數(shù)據(jù)，通過Prompt的方式實現(xiàn)認知決策。

　　但這個過程也會遇到一個問題，即自動駕駛算法學(xué)習(xí)的是所有“正常人類”的駕駛行為，這些數(shù)據(jù)中可能有高水平的，有低水平的，但機器無法分別，最終學(xué)習(xí)的結(jié)果就是達到一個綜合所有數(shù)據(jù)的平均水平。

　　為了解決這個問題，今年1月，毫末智行在AI Day上發(fā)布了人駕自監(jiān)督大模型，這個大模型如OpenAI在GPT-3上做的RLHF一樣，引入真實人類駕駛員的接管數(shù)據(jù)對自動駕駛進行強化學(xué)習(xí)。

　　即自動駕駛車輛在行駛過程中，人類的每一次接手本質(zhì)上可以理解為當(dāng)前階段的自動駕駛解決方案的不滿意，而人類接手后的駕駛方案可以理解為更優(yōu)的決策。所以通過對人類接手后駕駛方案的學(xué)習(xí)，能夠讓自動駕駛做出更像人的駕駛行為。

　　在當(dāng)時的AI DAY上，毫末智行CEO顧維灝曾提到：“通過這種方式，在公認的困難場景，例如掉頭、環(huán)島等，我們的通過率提升了30%以上。”

　　因此，雖然ChatGPT無法直接應(yīng)用到自動駕駛，但是ChatGPT的訓(xùn)練過程，以及其面臨的具體問題及其解決方案都值得學(xué)習(xí)，也將對自動駕駛的發(fā)展帶來深遠的影響。

　　二、ChatGPT的啟示

　　對于自動駕駛來說，除了模型訓(xùn)練方式和具體問題的解決之外，ChatGPT還能給自動駕駛帶來哪些啟示呢?

　　第一點，也是最重要的一點，就是ChatGPT給人類實現(xiàn)自動駕駛提供了信心。

　　如小冰公司CEO李笛所說，大模型某種意義上意味著一種暴力，一種大力出奇跡的狀態(tài)。ChatGPT也跟它的前身GPT-3模型一樣擁有1750億個參數(shù)，這是一種解決方案，即在人工智能這件事兒上，ChatGPT的成功意味著大力出奇跡是可行的。

　　在ChatGPT之前，困擾自動駕駛從業(yè)者一個很重要的問題在于，無窮無盡的corner case是不是真的能夠解決完。為了盡可能解決這個問題，一些自動駕駛公司琢磨出數(shù)字孿生、3D重建、占用網(wǎng)絡(luò)等多種方式。

　　而ChatGPT出現(xiàn)之后，又給自動駕駛解決corner case提供了新的思路，即只要數(shù)據(jù)量足夠多，依靠“人類反饋強化學(xué)習(xí)”，讓自動駕駛有能力應(yīng)對所有corner case也并非不可能。

　　而要實現(xiàn)這樣的數(shù)據(jù)訓(xùn)練，大模型就會成為自動駕駛企業(yè)的必備技術(shù)。所以就像百度自動駕駛技術(shù)專家王井東提到的那樣：“大模型已經(jīng)成為自動駕駛能力提升核心驅(qū)動力。”

　　當(dāng)然，要應(yīng)用大模型實際上并不簡單。

　　首先面臨的就是成本問題，大模型具有參數(shù)規(guī)模大、數(shù)據(jù)訓(xùn)練規(guī)模大，對算力要求大、成本高的特點。據(jù)國盛證券估算，GPT-3訓(xùn)練一次的成本約為140萬美元，對于一些更大的LLM(大型語言模型)，訓(xùn)練成本介于200萬美元至1200萬美元之間，折合人民幣基本每一次都過了千萬。

　　所以對于自動駕駛企業(yè)來說，解決算力問題就變得尤為重要。以特斯拉為例，其在決定將Transformer應(yīng)用到自動駕駛訓(xùn)練同時，就推出了自己全新研發(fā)的超級計算機Dojo，從算力規(guī)模上看，當(dāng)時的Dojo幾乎一出道就成功卡位了全球第五大超級計算機。

　　在國內(nèi)，小鵬2022年和阿里云一起在烏蘭察布建立了智算中心“扶搖”。更早的2021年底，毫末也曾發(fā)布自己的自動駕駛數(shù)據(jù)智能體系MANA，到今年年初，毫末又進一步宣布建成了智算中心(MANA OASIS)。

　　所以在大模型背后，算力也將成為未來自動駕駛企業(yè)在市場競爭中的核心能力，而在算力充足的基礎(chǔ)上，優(yōu)化算法效率來降低云端的訓(xùn)練成本也會成為重要的技術(shù)優(yōu)勢。

　　除了在成本和算力方面的考慮，自動駕駛與ChatGPT的差異也表現(xiàn)在，相比在網(wǎng)頁端，大模型在自動駕駛領(lǐng)域的落地會比較困難。

　　比如前面提到大模型需要大量的計算資源和存儲空間，但車端受限于硬件條件，計算資源和存儲空間都有限，而且還要考慮功耗和散熱等問題。

　　除此之外，自動駕駛需要實時地對周圍環(huán)境進行感知決策，因此大模型的計算速度需要非�？欤珡哪壳癈hatGPT的反應(yīng)速度來看，這顯然還有難度。

　　針對這些問題，目前國內(nèi)自動駕駛企業(yè)也提出了一些解決辦法，比如通過定制Transformer專用加速芯片來提升計算效能，以及通過改進車端模型，通過輕量化的模型來提升計算效率。

　　當(dāng)然，ChatGPT除了給自動駕駛提供了“大力出奇跡”的信心之外，它更重要的革命性意義在于，讓AI模型進入了知識和推理的時代。

　　這恰恰是當(dāng)前自動駕駛面臨的最大短板，即決策規(guī)劃缺乏足夠的智能。而如果能夠?qū)hatGPT的技術(shù)應(yīng)用到自動駕駛的決策規(guī)劃上，讓模型學(xué)會駕駛知識和駕駛策略推理，那么將會極大地拔高整個自動駕駛軟件的智能上限。

　　這里其實和前面提到的毫末人駕自監(jiān)督大模型是一個邏輯。

　　顧維灝曾提到，當(dāng)前基于傳統(tǒng)、基于規(guī)則的認知算法已經(jīng)進入瓶頸，很難取得突破。毫末一直在嘗試通過人駕自監(jiān)督大模型的方式來提升自動駕駛決策的效果，使得自動駕駛更像老司機。

　　百度的嘗試也是同樣的路徑，百度在最新財報電話會上提到，按照部署，未來文心一言背后大模型技術(shù)在自動駕駛上的應(yīng)用，將加深車輛對復(fù)雜城市路況的理解，進一步提升自動駕駛安全性和可靠性。

　　從這個角度，ChatGPT的技術(shù)或有可能推動實現(xiàn)L4級別自動駕駛的實現(xiàn)。

　　除此之外，ChatGPT還可以對自動駕駛場景生成帶來幫助。

　　作為軟件工程師，知乎作者@我是路頭new 在研究如何用OpenScenario 2.0中定義的智能駕駛場景描述語言來進行試車場景提取，語義級別仿真場景生成，仿真場景泛化的過程中使用了ChatGPT。

　　他讓ChatGPT幫忙生成一個Cut-in場景，在給定參數(shù)的情況下，ChatGPT能夠詳細給出基于OpenScenario 2.0的自動駕駛場景數(shù)據(jù)，甚至在參數(shù)不足的時候，它還會提醒作者需要設(shè)計其他參數(shù)。

　　同時，作者還測試了一些道路泛化的問題，即不給ChatGPT人為設(shè)定參數(shù)，而是讓限制條件下讓ChatGPT自動生成數(shù)據(jù)。而面對這個問題，ChatGPT也給出了合格的答案。

　　更重要的是，當(dāng)作者提問到，是否能夠生成之前提到條件下的所有場景，ChatGPT給出了一個科學(xué)計算的結(jié)果——131000。

　　對于真正的自動駕駛場景來說，這樣的場景生成自然還十分粗淺，但這其實給自動駕駛場景生成，道路泛化提供了另一種思路和可能。

　　可以說，就像每一次底層技術(shù)的創(chuàng)新都會帶來大規(guī)模的技術(shù)裂變一樣，ChatGPT雖然不能直接應(yīng)用在自動駕駛場景，但其背后的技術(shù)路徑，解決復(fù)雜問題的思路，都將為自動駕駛的發(fā)展提供最具價值的參考意義。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

爆火的ChatGPT 能讓自動駕駛成為老司機嗎？

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

爆火的ChatGPT 能讓自動駕駛成為老司機嗎？

擴展閱讀

爆火的ChatGPT 能讓自動駕駛成為老司機嗎？