作為在自然語言處理(NLP)領域應用廣泛的深度學習模型,Transformer 近兩年強勢來襲,不僅橫掃 NLP 領域,而且在 CV 上也鋒芒畢露。江湖傳言,Transformer 架構(gòu)就像是絕世高手的武林秘籍,得秘籍者得天下!
毫末智行作為國內(nèi)首先大規(guī)模使用 Vision Transformer 技術(shù)的公司,CEO顧維灝第一時間在內(nèi)部推動了此項技術(shù)的落地,力求在智能駕駛的賽道上能搶占先機。
Transformer 的殺手锏
據(jù)顧維灝介紹,最初的 Transformer 來自于 NLP,它的出現(xiàn)將 NLP 領域向前推動了一大步。其中的關鍵要素就是Transformer 具備:超強的序列建模能力、全局信息感知能力。
得益于這兩點優(yōu)勢,Transformer 幾乎取代了基于 RNN 的算法在 NLP 中的地位,也被引入到 CV 領域。但值得深入思考的是,Transformer 如何利用優(yōu)勢在視覺領域發(fā)揮作用呢?
要知道 NLP 中處理的是語句,句子是天然的序列數(shù)據(jù),所以很容易理解 Transformer 是如何處理它們的?稍谝曈X領域,“序列”的概念并不是顯式的,因此可以從空間和時間兩個維度去理解。
首先是空間維度,靜態(tài)圖像從空間上可以被劃分成多個區(qū)域(block),一種典型的劃分方式就是按照高和寬進行劃分,例如,一幅圖像的高和寬分別是 H 和 W,如果要求 block 的長寬均為 M,那么最終會得到 (H/M ×W/M) 個 block。
其實可以把 block 看成是 NLP 句子中的詞,這里的只不過是“視覺詞”(visual words)。這樣一來,就可以將一幅圖像轉(zhuǎn)化成一個按照空間順序排列的 block 集合,一方面這樣的視角轉(zhuǎn)換保證了不丟失視覺信息,另一方面讓應用 Transformer 變得非常容易。
另一種則是通過時間維度去理解視覺中的序列,即視頻。視頻是由靜態(tài)的圖像幀組成,把每一幀看成是一個基本單元(同樣可以類別成句子中的詞),那么就可以很自然地按照時間序列把一個片段組織起來,從而應用 Transformer 進行后續(xù)的特征提取。
圖引自論文《An Image is Worth 16x16 Words Transformer for Image Recognition at scale”》
除了強大的序列建模能力,Transformer 的主要模塊 Multi-Head Self-Attention 可以同時感知到輸入序列的全局信息,這是 Transformer 相比于 CNN 的巨大優(yōu)勢。在 CNN 中,信息只能從局部開始,隨著層數(shù)的增加,能夠被感知到的區(qū)域逐步增大。然而Transformer 從輸入開始,每一層結(jié)構(gòu)都可以看到所有的信息,并且建立基本單元之間的關聯(lián),也意味著Transformer 能夠處理更加復雜的問題。
Transformer 的優(yōu)化升級
目前處于 Transformer 在視覺中應用的早期,大家使用 Transformer 的方式主要參考了其在 NLP 中的應用經(jīng)驗。但是,如果直接將 Transformer 應用到視覺上,也會存在一些難題。
其一,核心模塊多頭注意力機制(Multi-Head Self-Attention )的計算量與 block 的個數(shù)成正比,因此在視覺中 block 數(shù)量要遠多于 NLP 中句子的詞數(shù),這就造成了計算量的陡增。
其二,Transformer 擅長全局關系的學習,對于局部細節(jié)信息關注有限,然而視覺中很多任務需要足夠豐富的細節(jié)信息做判斷,比如語義分割。
針對上述的問題,毫末智行人工智能研發(fā)團隊對核心模塊多頭注意力機制(Multi-Head Self-Attention)進行了優(yōu)化,同時采用了金字塔的結(jié)構(gòu)增強 Transformer 對于細節(jié)信息的感知。
圖引自論文《LeViT a Vision Transformer in ConvNet Clothing for Faster Inference》
Transformer 的未來演化
盡管我們在上面提到了 Transformer 的一些不盡如意之處,但隨著研究的深入,大家逐步發(fā)現(xiàn)在同一結(jié)構(gòu)中結(jié)合 CNN 和 Transformer 各自的優(yōu)勢,即可做到相互的揚長避短。在未來,把CNN 和 Transformer 進行整合將成為 Transformer 的演化路徑之一。
具體來說,主干網(wǎng)使用 CNN,Head 使用 Transformer 結(jié)構(gòu),可以有效提升網(wǎng)絡的速度(相比純使用 Transformer);相反,主干網(wǎng)使用 Transformer 結(jié)構(gòu),Head 使用 CNN 的結(jié)構(gòu),可以有效提升結(jié)果精度(相比于純使用 CNN)。
其次,核心模塊 Multi-Head Self-Attention 內(nèi)部也可以通過降低子空間的維度、對輸入 block 進行分組等手段降低其計算量且不至于損失過多精度。
最后,通過控制 block 的粒度,使 Transformer 能夠感知到不同尺度的信息,從而達到局部和全局的信息融合。
毫末智行團隊已經(jīng)將上述的改進逐步添加到了毫末智行自己的模型中。未來,我們將不斷在提升速度的同時保證出色的精度,讓 Transformer 在實際的業(yè)務中生根發(fā)芽。
圖引自論文《End to End Object Detection with Transformers》
基于 Transformer 的感知算法表現(xiàn)出了極強的泛化性和魯棒性,也因此顧維灝堅定認為,Transformer 的優(yōu)秀特性極有可能在智能駕駛的場景中發(fā)揮出傳統(tǒng) CNN 算法所不能企及的感知能力。
目前,毫末智行的人工智能團隊正在逐步將基于 Transformer 的感知算法應用到實際的道路感知問題,例如車道線檢測、障礙物檢測、可行駛區(qū)域分割、紅綠燈檢測&識別、道路交通標志檢測、點云檢測&分割等。未來,相關 Transformer 感知算法更加和穩(wěn)定成熟后,逐步替換基于 CNN 的感知算法。
Transformer 技術(shù)的進一步應用,不僅為毫末智行在各條智能駕駛產(chǎn)品線上的視覺算法落地帶來成倍的效率提升,還能夠讓各項視覺性能指標快速達到業(yè)內(nèi)領先水平。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。