作為在自然語(yǔ)言處理(NLP)領(lǐng)域應(yīng)用廣泛的深度學(xué)習(xí)模型,Transformer 近兩年強(qiáng)勢(shì)來(lái)襲,不僅橫掃 NLP 領(lǐng)域,而且在 CV 上也鋒芒畢露。江湖傳言,Transformer 架構(gòu)就像是絕世高手的武林秘籍,得秘籍者得天下!
毫末智行作為國(guó)內(nèi)首先大規(guī)模使用 Vision Transformer 技術(shù)的公司,CEO顧維灝第一時(shí)間在內(nèi)部推動(dòng)了此項(xiàng)技術(shù)的落地,力求在智能駕駛的賽道上能搶占先機(jī)。
Transformer 的殺手锏
據(jù)顧維灝介紹,最初的 Transformer 來(lái)自于 NLP,它的出現(xiàn)將 NLP 領(lǐng)域向前推動(dòng)了一大步。其中的關(guān)鍵要素就是Transformer 具備:超強(qiáng)的序列建模能力、全局信息感知能力。
得益于這兩點(diǎn)優(yōu)勢(shì),Transformer 幾乎取代了基于 RNN 的算法在 NLP 中的地位,也被引入到 CV 領(lǐng)域。但值得深入思考的是,Transformer 如何利用優(yōu)勢(shì)在視覺(jué)領(lǐng)域發(fā)揮作用呢?
要知道 NLP 中處理的是語(yǔ)句,句子是天然的序列數(shù)據(jù),所以很容易理解 Transformer 是如何處理它們的?稍谝曈X(jué)領(lǐng)域,“序列”的概念并不是顯式的,因此可以從空間和時(shí)間兩個(gè)維度去理解。
首先是空間維度,靜態(tài)圖像從空間上可以被劃分成多個(gè)區(qū)域(block),一種典型的劃分方式就是按照高和寬進(jìn)行劃分,例如,一幅圖像的高和寬分別是 H 和 W,如果要求 block 的長(zhǎng)寬均為 M,那么最終會(huì)得到 (H/M ×W/M) 個(gè) block。
其實(shí)可以把 block 看成是 NLP 句子中的詞,這里的只不過(guò)是“視覺(jué)詞”(visual words)。這樣一來(lái),就可以將一幅圖像轉(zhuǎn)化成一個(gè)按照空間順序排列的 block 集合,一方面這樣的視角轉(zhuǎn)換保證了不丟失視覺(jué)信息,另一方面讓?xiě)?yīng)用 Transformer 變得非常容易。
另一種則是通過(guò)時(shí)間維度去理解視覺(jué)中的序列,即視頻。視頻是由靜態(tài)的圖像幀組成,把每一幀看成是一個(gè)基本單元(同樣可以類(lèi)別成句子中的詞),那么就可以很自然地按照時(shí)間序列把一個(gè)片段組織起來(lái),從而應(yīng)用 Transformer 進(jìn)行后續(xù)的特征提取。
圖引自論文《An Image is Worth 16x16 Words Transformer for Image Recognition at scale”》
除了強(qiáng)大的序列建模能力,Transformer 的主要模塊 Multi-Head Self-Attention 可以同時(shí)感知到輸入序列的全局信息,這是 Transformer 相比于 CNN 的巨大優(yōu)勢(shì)。在 CNN 中,信息只能從局部開(kāi)始,隨著層數(shù)的增加,能夠被感知到的區(qū)域逐步增大。然而Transformer 從輸入開(kāi)始,每一層結(jié)構(gòu)都可以看到所有的信息,并且建立基本單元之間的關(guān)聯(lián),也意味著Transformer 能夠處理更加復(fù)雜的問(wèn)題。
Transformer 的優(yōu)化升級(jí)
目前處于 Transformer 在視覺(jué)中應(yīng)用的早期,大家使用 Transformer 的方式主要參考了其在 NLP 中的應(yīng)用經(jīng)驗(yàn)。但是,如果直接將 Transformer 應(yīng)用到視覺(jué)上,也會(huì)存在一些難題。
其一,核心模塊多頭注意力機(jī)制(Multi-Head Self-Attention )的計(jì)算量與 block 的個(gè)數(shù)成正比,因此在視覺(jué)中 block 數(shù)量要遠(yuǎn)多于 NLP 中句子的詞數(shù),這就造成了計(jì)算量的陡增。
其二,Transformer 擅長(zhǎng)全局關(guān)系的學(xué)習(xí),對(duì)于局部細(xì)節(jié)信息關(guān)注有限,然而視覺(jué)中很多任務(wù)需要足夠豐富的細(xì)節(jié)信息做判斷,比如語(yǔ)義分割。
針對(duì)上述的問(wèn)題,毫末智行人工智能研發(fā)團(tuán)隊(duì)對(duì)核心模塊多頭注意力機(jī)制(Multi-Head Self-Attention)進(jìn)行了優(yōu)化,同時(shí)采用了金字塔的結(jié)構(gòu)增強(qiáng) Transformer 對(duì)于細(xì)節(jié)信息的感知。
圖引自論文《LeViT a Vision Transformer in ConvNet Clothing for Faster Inference》
Transformer 的未來(lái)演化
盡管我們?cè)谏厦嫣岬搅?Transformer 的一些不盡如意之處,但隨著研究的深入,大家逐步發(fā)現(xiàn)在同一結(jié)構(gòu)中結(jié)合 CNN 和 Transformer 各自的優(yōu)勢(shì),即可做到相互的揚(yáng)長(zhǎng)避短。在未來(lái),把CNN 和 Transformer 進(jìn)行整合將成為 Transformer 的演化路徑之一。
具體來(lái)說(shuō),主干網(wǎng)使用 CNN,Head 使用 Transformer 結(jié)構(gòu),可以有效提升網(wǎng)絡(luò)的速度(相比純使用 Transformer);相反,主干網(wǎng)使用 Transformer 結(jié)構(gòu),Head 使用 CNN 的結(jié)構(gòu),可以有效提升結(jié)果精度(相比于純使用 CNN)。
其次,核心模塊 Multi-Head Self-Attention 內(nèi)部也可以通過(guò)降低子空間的維度、對(duì)輸入 block 進(jìn)行分組等手段降低其計(jì)算量且不至于損失過(guò)多精度。
最后,通過(guò)控制 block 的粒度,使 Transformer 能夠感知到不同尺度的信息,從而達(dá)到局部和全局的信息融合。
毫末智行團(tuán)隊(duì)已經(jīng)將上述的改進(jìn)逐步添加到了毫末智行自己的模型中。未來(lái),我們將不斷在提升速度的同時(shí)保證出色的精度,讓 Transformer 在實(shí)際的業(yè)務(wù)中生根發(fā)芽。
圖引自論文《End to End Object Detection with Transformers》
基于 Transformer 的感知算法表現(xiàn)出了極強(qiáng)的泛化性和魯棒性,也因此顧維灝堅(jiān)定認(rèn)為,Transformer 的優(yōu)秀特性極有可能在智能駕駛的場(chǎng)景中發(fā)揮出傳統(tǒng) CNN 算法所不能企及的感知能力。
目前,毫末智行的人工智能團(tuán)隊(duì)正在逐步將基于 Transformer 的感知算法應(yīng)用到實(shí)際的道路感知問(wèn)題,例如車(chē)道線(xiàn)檢測(cè)、障礙物檢測(cè)、可行駛區(qū)域分割、紅綠燈檢測(cè)&識(shí)別、道路交通標(biāo)志檢測(cè)、點(diǎn)云檢測(cè)&分割等。未來(lái),相關(guān) Transformer 感知算法更加和穩(wěn)定成熟后,逐步替換基于 CNN 的感知算法。
Transformer 技術(shù)的進(jìn)一步應(yīng)用,不僅為毫末智行在各條智能駕駛產(chǎn)品線(xiàn)上的視覺(jué)算法落地帶來(lái)成倍的效率提升,還能夠讓各項(xiàng)視覺(jué)性能指標(biāo)快速達(dá)到業(yè)內(nèi)領(lǐng)先水平。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
京東11.11采銷(xiāo)直播探廠(chǎng)為消費(fèi)者揭開(kāi)答案。近日,京東3C數(shù)碼采銷(xiāo)走進(jìn)武漢攀升工廠(chǎng)、合肥聯(lián)想工廠(chǎng)和科大訊飛展廳,通過(guò)直播帶貨廠(chǎng)商爆款產(chǎn)品,并為消費(fèi)者帶來(lái)超值低價(jià)與福利。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線(xiàn)上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。