毫末智行CEO顧維灝解讀Transformer如何提升自動駕駛安全穩(wěn)定性

2021年08月28日 10:28:03 來源：中文科技資訊

　　作為在自然語言處理(NLP)領域應用廣泛的深度學習模型，Transformer 近兩年強勢來襲，不僅橫掃 NLP 領域，而且在 CV 上也鋒芒畢露。江湖傳言，Transformer 架構(gòu)就像是絕世高手的武林秘籍，得秘籍者得天下!

　　毫末智行作為國內(nèi)首先大規(guī)模使用 Vision Transformer 技術(shù)的公司，CEO顧維灝第一時間在內(nèi)部推動了此項技術(shù)的落地，力求在智能駕駛的賽道上能搶占先機。

　　Transformer 的殺手锏

　　據(jù)顧維灝介紹，最初的 Transformer 來自于 NLP，它的出現(xiàn)將 NLP 領域向前推動了一大步。其中的關鍵要素就是Transformer 具備：超強的序列建模能力、全局信息感知能力。

　　得益于這兩點優(yōu)勢，Transformer 幾乎取代了基于 RNN 的算法在 NLP 中的地位，也被引入到 CV 領域。但值得深入思考的是，Transformer 如何利用優(yōu)勢在視覺領域發(fā)揮作用呢?

　　要知道 NLP 中處理的是語句，句子是天然的序列數(shù)據(jù)，所以很容易理解 Transformer 是如何處理它們的�？稍谝曈X領域，“序列”的概念并不是顯式的，因此可以從空間和時間兩個維度去理解。

　　首先是空間維度，靜態(tài)圖像從空間上可以被劃分成多個區(qū)域(block)，一種典型的劃分方式就是按照高和寬進行劃分，例如，一幅圖像的高和寬分別是 H 和 W，如果要求 block 的長寬均為 M，那么最終會得到 (H/M ×W/M) 個 block。

　　其實可以把 block 看成是 NLP 句子中的詞，這里的只不過是“視覺詞”(visual words)。這樣一來，就可以將一幅圖像轉(zhuǎn)化成一個按照空間順序排列的 block 集合，一方面這樣的視角轉(zhuǎn)換保證了不丟失視覺信息，另一方面讓應用 Transformer 變得非常容易。

　　另一種則是通過時間維度去理解視覺中的序列，即視頻。視頻是由靜態(tài)的圖像幀組成，把每一幀看成是一個基本單元(同樣可以類別成句子中的詞)，那么就可以很自然地按照時間序列把一個片段組織起來，從而應用 Transformer 進行后續(xù)的特征提取。

　　圖引自論文《An Image is Worth 16x16 Words Transformer for Image Recognition at scale”》

　　除了強大的序列建模能力，Transformer 的主要模塊 Multi-Head Self-Attention 可以同時感知到輸入序列的全局信息，這是 Transformer 相比于 CNN 的巨大優(yōu)勢。在 CNN 中，信息只能從局部開始，隨著層數(shù)的增加，能夠被感知到的區(qū)域逐步增大。然而Transformer 從輸入開始，每一層結(jié)構(gòu)都可以看到所有的信息，并且建立基本單元之間的關聯(lián)，也意味著Transformer 能夠處理更加復雜的問題。

　　Transformer 的優(yōu)化升級

　　目前處于 Transformer 在視覺中應用的早期，大家使用 Transformer 的方式主要參考了其在 NLP 中的應用經(jīng)驗。但是，如果直接將 Transformer 應用到視覺上，也會存在一些難題。

　　其一，核心模塊多頭注意力機制(Multi-Head Self-Attention )的計算量與 block 的個數(shù)成正比，因此在視覺中 block 數(shù)量要遠多于 NLP 中句子的詞數(shù)，這就造成了計算量的陡增。

　　其二，Transformer 擅長全局關系的學習，對于局部細節(jié)信息關注有限，然而視覺中很多任務需要足夠豐富的細節(jié)信息做判斷，比如語義分割。

　　針對上述的問題，毫末智行人工智能研發(fā)團隊對核心模塊多頭注意力機制(Multi-Head Self-Attention)進行了優(yōu)化，同時采用了金字塔的結(jié)構(gòu)增強 Transformer 對于細節(jié)信息的感知。

　　圖引自論文《LeViT a Vision Transformer in ConvNet Clothing for Faster Inference》

　　Transformer 的未來演化

　　盡管我們在上面提到了 Transformer 的一些不盡如意之處，但隨著研究的深入，大家逐步發(fā)現(xiàn)在同一結(jié)構(gòu)中結(jié)合 CNN 和 Transformer 各自的優(yōu)勢，即可做到相互的揚長避短。在未來，把CNN 和 Transformer 進行整合將成為 Transformer 的演化路徑之一。

　　具體來說，主干網(wǎng)使用 CNN，Head 使用 Transformer 結(jié)構(gòu)，可以有效提升網(wǎng)絡的速度(相比純使用 Transformer);相反，主干網(wǎng)使用 Transformer 結(jié)構(gòu)，Head 使用 CNN 的結(jié)構(gòu)，可以有效提升結(jié)果精度(相比于純使用 CNN)。

　　其次，核心模塊 Multi-Head Self-Attention 內(nèi)部也可以通過降低子空間的維度、對輸入 block 進行分組等手段降低其計算量且不至于損失過多精度。

　　最后，通過控制 block 的粒度，使 Transformer 能夠感知到不同尺度的信息，從而達到局部和全局的信息融合。

　　毫末智行團隊已經(jīng)將上述的改進逐步添加到了毫末智行自己的模型中。未來，我們將不斷在提升速度的同時保證出色的精度，讓 Transformer 在實際的業(yè)務中生根發(fā)芽。

　　圖引自論文《End to End Object Detection with Transformers》

　　基于 Transformer 的感知算法表現(xiàn)出了極強的泛化性和魯棒性，也因此顧維灝堅定認為，Transformer 的優(yōu)秀特性極有可能在智能駕駛的場景中發(fā)揮出傳統(tǒng) CNN 算法所不能企及的感知能力。

　　目前，毫末智行的人工智能團隊正在逐步將基于 Transformer 的感知算法應用到實際的道路感知問題，例如車道線檢測、障礙物檢測、可行駛區(qū)域分割、紅綠燈檢測&識別、道路交通標志檢測、點云檢測&分割等。未來，相關 Transformer 感知算法更加和穩(wěn)定成熟后，逐步替換基于 CNN 的感知算法。

　　Transformer 技術(shù)的進一步應用，不僅為毫末智行在各條智能駕駛產(chǎn)品線上的視覺算法落地帶來成倍的效率提升，還能夠讓各項視覺性能指標快速達到業(yè)內(nèi)領先水平。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. S026]
分享到微信