雷軍:小米SU7第10萬(wàn)臺(tái)車(chē)下線(xiàn),僅用時(shí)230天北汽藍(lán)谷:與小馬智行達(dá)成L4無(wú)人駕駛車(chē)型開(kāi)發(fā)合作,計(jì)劃在明年推出首批極狐阿爾法T5 Robotaxi騰訊音樂(lè)三季度凈利潤(rùn)勁升35.3%!付費(fèi)用戶(hù)已達(dá)1.190億蘋(píng)果有望明年3月發(fā)布智能家居顯示器 2026年生產(chǎn)智能攝像頭小鵬汽車(chē)前智駕負(fù)責(zé)人加入比亞迪 曾深度參與無(wú)圖智駕開(kāi)發(fā)SEMI:2024Q3全球硅晶圓出貨面積同比增長(zhǎng)6.8%、環(huán)比增長(zhǎng)5.9%告別高價(jià)流量,這個(gè)雙11變了李彥宏的“少數(shù)派報(bào)告”:如何成為AI時(shí)代的1%郵件欺詐新威脅,微軟披露 Exchange Server 高風(fēng)險(xiǎn)漏洞國(guó)家郵政局:11月11日快遞業(yè)務(wù)量7.01億件 創(chuàng)歷年“雙11”當(dāng)日新高AMD宣布推出第二代Versal Premium系列,實(shí)現(xiàn)全新系統(tǒng)加速水平,滿(mǎn)足數(shù)據(jù)密集型工作負(fù)載需求別再被尺寸迷惑了!98吋對(duì)比100吋完勝,這些細(xì)節(jié)你絕對(duì)想不到!拼多多擬更新價(jià)格保護(hù)規(guī)則,活動(dòng)商品均適用降價(jià)補(bǔ)差AIGC的全新機(jī)遇!北京這場(chǎng)專(zhuān)家云集的AIGC國(guó)際會(huì)議與大模型應(yīng)用峰會(huì)即將啟幕微課視頻制作難題?訊飛智作AI虛擬人助你輕松搞定TV面板回暖,惠科群創(chuàng)爭(zhēng)“老三”,三星左右格局走向?星巴克應(yīng)用程序與DoorDash合作新增送貨服務(wù)本田因動(dòng)力電池破損在中國(guó)召回汽車(chē)209輛 再陷安全隱患爭(zhēng)議賣(mài)爆8000元價(jià)位電腦,B站帶貨終于行了?沒(méi)有最低價(jià)、GMV成謎,史上最長(zhǎng)雙十一戰(zhàn)報(bào)揭曉
  • 首頁(yè) > 產(chǎn)經(jīng)新聞?lì)l道 > 業(yè)界新聞

    毫末智行CEO顧維灝解讀Transformer如何提升自動(dòng)駕駛安全穩(wěn)定性

    2021年08月28日 10:28:03   來(lái)源:中文科技資訊

      作為在自然語(yǔ)言處理(NLP)領(lǐng)域應(yīng)用廣泛的深度學(xué)習(xí)模型,Transformer 近兩年強(qiáng)勢(shì)來(lái)襲,不僅橫掃 NLP 領(lǐng)域,而且在 CV 上也鋒芒畢露。江湖傳言,Transformer 架構(gòu)就像是絕世高手的武林秘籍,得秘籍者得天下!

      毫末智行作為國(guó)內(nèi)首先大規(guī)模使用 Vision Transformer 技術(shù)的公司,CEO顧維灝第一時(shí)間在內(nèi)部推動(dòng)了此項(xiàng)技術(shù)的落地,力求在智能駕駛的賽道上能搶占先機(jī)。

      Transformer 的殺手锏

      據(jù)顧維灝介紹,最初的 Transformer 來(lái)自于 NLP,它的出現(xiàn)將 NLP 領(lǐng)域向前推動(dòng)了一大步。其中的關(guān)鍵要素就是Transformer 具備:超強(qiáng)的序列建模能力、全局信息感知能力。

      得益于這兩點(diǎn)優(yōu)勢(shì),Transformer 幾乎取代了基于 RNN 的算法在 NLP 中的地位,也被引入到 CV 領(lǐng)域。但值得深入思考的是,Transformer 如何利用優(yōu)勢(shì)在視覺(jué)領(lǐng)域發(fā)揮作用呢?

      要知道 NLP 中處理的是語(yǔ)句,句子是天然的序列數(shù)據(jù),所以很容易理解 Transformer 是如何處理它們的?稍谝曈X(jué)領(lǐng)域,“序列”的概念并不是顯式的,因此可以從空間和時(shí)間兩個(gè)維度去理解。

      首先是空間維度,靜態(tài)圖像從空間上可以被劃分成多個(gè)區(qū)域(block),一種典型的劃分方式就是按照高和寬進(jìn)行劃分,例如,一幅圖像的高和寬分別是 H 和 W,如果要求 block 的長(zhǎng)寬均為 M,那么最終會(huì)得到 (H/M ×W/M) 個(gè) block。

      其實(shí)可以把 block 看成是 NLP 句子中的詞,這里的只不過(guò)是“視覺(jué)詞”(visual words)。這樣一來(lái),就可以將一幅圖像轉(zhuǎn)化成一個(gè)按照空間順序排列的 block 集合,一方面這樣的視角轉(zhuǎn)換保證了不丟失視覺(jué)信息,另一方面讓?xiě)?yīng)用 Transformer 變得非常容易。

      另一種則是通過(guò)時(shí)間維度去理解視覺(jué)中的序列,即視頻。視頻是由靜態(tài)的圖像幀組成,把每一幀看成是一個(gè)基本單元(同樣可以類(lèi)別成句子中的詞),那么就可以很自然地按照時(shí)間序列把一個(gè)片段組織起來(lái),從而應(yīng)用 Transformer 進(jìn)行后續(xù)的特征提取。

      圖引自論文《An Image is Worth 16x16 Words Transformer for Image Recognition at scale”》

      除了強(qiáng)大的序列建模能力,Transformer 的主要模塊 Multi-Head Self-Attention 可以同時(shí)感知到輸入序列的全局信息,這是 Transformer 相比于 CNN 的巨大優(yōu)勢(shì)。在 CNN 中,信息只能從局部開(kāi)始,隨著層數(shù)的增加,能夠被感知到的區(qū)域逐步增大。然而Transformer 從輸入開(kāi)始,每一層結(jié)構(gòu)都可以看到所有的信息,并且建立基本單元之間的關(guān)聯(lián),也意味著Transformer 能夠處理更加復(fù)雜的問(wèn)題。

      Transformer 的優(yōu)化升級(jí)

      目前處于 Transformer 在視覺(jué)中應(yīng)用的早期,大家使用 Transformer 的方式主要參考了其在 NLP 中的應(yīng)用經(jīng)驗(yàn)。但是,如果直接將 Transformer 應(yīng)用到視覺(jué)上,也會(huì)存在一些難題。

      其一,核心模塊多頭注意力機(jī)制(Multi-Head Self-Attention )的計(jì)算量與 block 的個(gè)數(shù)成正比,因此在視覺(jué)中 block 數(shù)量要遠(yuǎn)多于 NLP 中句子的詞數(shù),這就造成了計(jì)算量的陡增。

      其二,Transformer 擅長(zhǎng)全局關(guān)系的學(xué)習(xí),對(duì)于局部細(xì)節(jié)信息關(guān)注有限,然而視覺(jué)中很多任務(wù)需要足夠豐富的細(xì)節(jié)信息做判斷,比如語(yǔ)義分割。

      針對(duì)上述的問(wèn)題,毫末智行人工智能研發(fā)團(tuán)隊(duì)對(duì)核心模塊多頭注意力機(jī)制(Multi-Head Self-Attention)進(jìn)行了優(yōu)化,同時(shí)采用了金字塔的結(jié)構(gòu)增強(qiáng) Transformer 對(duì)于細(xì)節(jié)信息的感知。

      圖引自論文《LeViT a Vision Transformer in ConvNet Clothing for Faster Inference》

      Transformer 的未來(lái)演化

      盡管我們?cè)谏厦嫣岬搅?Transformer 的一些不盡如意之處,但隨著研究的深入,大家逐步發(fā)現(xiàn)在同一結(jié)構(gòu)中結(jié)合 CNN 和 Transformer 各自的優(yōu)勢(shì),即可做到相互的揚(yáng)長(zhǎng)避短。在未來(lái),把CNN 和 Transformer 進(jìn)行整合將成為 Transformer 的演化路徑之一。

      具體來(lái)說(shuō),主干網(wǎng)使用 CNN,Head 使用 Transformer 結(jié)構(gòu),可以有效提升網(wǎng)絡(luò)的速度(相比純使用 Transformer);相反,主干網(wǎng)使用 Transformer 結(jié)構(gòu),Head 使用 CNN 的結(jié)構(gòu),可以有效提升結(jié)果精度(相比于純使用 CNN)。

      其次,核心模塊 Multi-Head Self-Attention 內(nèi)部也可以通過(guò)降低子空間的維度、對(duì)輸入 block 進(jìn)行分組等手段降低其計(jì)算量且不至于損失過(guò)多精度。

      最后,通過(guò)控制 block 的粒度,使 Transformer 能夠感知到不同尺度的信息,從而達(dá)到局部和全局的信息融合。

      毫末智行團(tuán)隊(duì)已經(jīng)將上述的改進(jìn)逐步添加到了毫末智行自己的模型中。未來(lái),我們將不斷在提升速度的同時(shí)保證出色的精度,讓 Transformer 在實(shí)際的業(yè)務(wù)中生根發(fā)芽。

      圖引自論文《End to End Object Detection with Transformers》

      基于 Transformer 的感知算法表現(xiàn)出了極強(qiáng)的泛化性和魯棒性,也因此顧維灝堅(jiān)定認(rèn)為,Transformer 的優(yōu)秀特性極有可能在智能駕駛的場(chǎng)景中發(fā)揮出傳統(tǒng) CNN 算法所不能企及的感知能力。

      目前,毫末智行的人工智能團(tuán)隊(duì)正在逐步將基于 Transformer 的感知算法應(yīng)用到實(shí)際的道路感知問(wèn)題,例如車(chē)道線(xiàn)檢測(cè)、障礙物檢測(cè)、可行駛區(qū)域分割、紅綠燈檢測(cè)&識(shí)別、道路交通標(biāo)志檢測(cè)、點(diǎn)云檢測(cè)&分割等。未來(lái),相關(guān) Transformer 感知算法更加和穩(wěn)定成熟后,逐步替換基于 CNN 的感知算法。

      Transformer 技術(shù)的進(jìn)一步應(yīng)用,不僅為毫末智行在各條智能駕駛產(chǎn)品線(xiàn)上的視覺(jué)算法落地帶來(lái)成倍的效率提升,還能夠讓各項(xiàng)視覺(jué)性能指標(biāo)快速達(dá)到業(yè)內(nèi)領(lǐng)先水平。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. S026]
    分享到微信

    即時(shí)

    京東11.11跟著采銷(xiāo)走進(jìn)科大訊飛 直播間享專(zhuān)享價(jià)與超值福利

    京東11.11采銷(xiāo)直播探廠(chǎng)為消費(fèi)者揭開(kāi)答案。近日,京東3C數(shù)碼采銷(xiāo)走進(jìn)武漢攀升工廠(chǎng)、合肥聯(lián)想工廠(chǎng)和科大訊飛展廳,通過(guò)直播帶貨廠(chǎng)商爆款產(chǎn)品,并為消費(fèi)者帶來(lái)超值低價(jià)與福利。

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類(lèi)目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線(xiàn)上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。