在Transformer占據(jù)多模態(tài)工具半壁江山的時(shí)代,大核CNN又“殺了回來(lái)”,成為了一匹新的黑馬。
騰訊AI實(shí)驗(yàn)室與港中文聯(lián)合團(tuán)隊(duì)提出了一種新的CNN架構(gòu),圖像識(shí)別精度和速度都超過(guò)了Transformer架構(gòu)模型。
切換到點(diǎn)云、音頻、視頻等其他模態(tài),也無(wú)需改變模型結(jié)構(gòu),簡(jiǎn)單預(yù)處理即可接近甚至超越SOTA。
團(tuán)隊(duì)提出了專門(mén)用于大核CNN架構(gòu)設(shè)計(jì)的四條guideline和一種名為UniRepLKNet的強(qiáng)力backbone。
只要用ImageNet-22K對(duì)其進(jìn)行預(yù)訓(xùn)練,精度和速度就都能成為SOTA——
ImageNet達(dá)到88%,COCO達(dá)到56.4 box AP,ADE20K達(dá)到55.6 mIoU,實(shí)際測(cè)速優(yōu)勢(shì)很大。
在時(shí)序預(yù)測(cè)的超大數(shù)據(jù)上使用UniRepLKNet,也能達(dá)到最佳水平——
例如在全球氣溫和風(fēng)速預(yù)測(cè)上,它就超越了Nature子刊上基于Transformer的前SOTA。
更多細(xì)節(jié),我們接著看作者投稿。
“Transformer時(shí)代”,為什么還需要CNN
在正式介紹UniRepLKNet的原理之前,作者首先解答了兩個(gè)問(wèn)題。
第一個(gè)問(wèn)題是,為什么在Transformer大一統(tǒng)各個(gè)模態(tài)的時(shí)代還要研究CNN?
作者認(rèn)為,Transformer和CNN只不過(guò)是相互交融的兩種結(jié)構(gòu)設(shè)計(jì)思路罷了,沒(méi)有理由認(rèn)為前者具有本質(zhì)的優(yōu)越性。
“Transformer大一統(tǒng)各個(gè)模態(tài)”正是研究團(tuán)隊(duì)試圖修正的認(rèn)知。
正如2022年初ConvNeXt、RepLKNet和另外一些工作問(wèn)世之前,“Transformer在圖像任務(wù)上吊打CNN”是主流認(rèn)知。
這幾項(xiàng)成果出現(xiàn)后,這一認(rèn)知被修正為“CNN和Transformer在圖像任務(wù)上差不多”。
本研究團(tuán)隊(duì)的成果將其進(jìn)一步修正:在點(diǎn)云、音頻、視頻上,CNN比我們想象的強(qiáng)太多了。
在時(shí)序預(yù)測(cè)這種并不是CNN傳統(tǒng)強(qiáng)項(xiàng)的領(lǐng)域(LSTM等曾是主流,最近兩年Transformer越來(lái)越多),CNN都能超過(guò)Transformer,成功將其“偷家”。
因此,研究團(tuán)隊(duì)認(rèn)為,CNN在大一統(tǒng)這一點(diǎn)上可能不弱于Transformer。
第二個(gè)問(wèn)題是,如何將一個(gè)為圖像任務(wù)設(shè)計(jì)的CNN用于音頻、視頻、點(diǎn)云、時(shí)序數(shù)據(jù)?
出于對(duì)簡(jiǎn)潔和通用性的永恒追求,將UniRepLKNet用于其他模態(tài)時(shí),不對(duì)模型架構(gòu)主體做任何改變(以下實(shí)驗(yàn)用的全都是UniRepLKNet-Small)。
只需要將視頻、音頻、點(diǎn)云、時(shí)序數(shù)據(jù)給處理成C×H×W的embedding map(對(duì)于圖像來(lái)說(shuō),C=3),就能實(shí)現(xiàn)到其他模態(tài)的過(guò)渡,例如:
把音頻的頻譜圖(Time×Frequency)看成是一幅單通道圖像,即C=1,H=T,W=F;
將點(diǎn)云進(jìn)行三視圖投影,得到三幅單通道圖像,C=3,H和W可以隨意指定;
將視頻中的各幀拼接到一起,極為簡(jiǎn)單地得到一張大圖(例如,16幀的3×224×224視頻拼接得到3×896×896的輸入);
對(duì)時(shí)序數(shù)據(jù),借鑒CorrFormer中的embedding layer將數(shù)據(jù)轉(zhuǎn)換為隱空間中的張量然后簡(jiǎn)單粗暴地將其reshape成一幅單通道圖像。
后文展示的結(jié)果將會(huì)證明,如此簡(jiǎn)單的設(shè)計(jì)產(chǎn)生的效果是極為優(yōu)秀的。
大卷積核CNN架構(gòu)設(shè)計(jì)
2022年,RepLKNet提出了用超大卷積核(從13×13到31×31)來(lái)構(gòu)建現(xiàn)代CNN以及正確使用超大卷積核的幾個(gè)設(shè)計(jì)原則。
但從架構(gòu)層面看,RepLKNet只是簡(jiǎn)單地用了Swin Transformer的整體架構(gòu),并沒(méi)有做什么改動(dòng)。
當(dāng)前大核CNN架構(gòu)設(shè)計(jì)要么遵循現(xiàn)有的CNN設(shè)計(jì)原則,要么遵循現(xiàn)有的Transformer設(shè)計(jì)原則。
在傳統(tǒng)的卷積網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中,當(dāng)研究者向網(wǎng)絡(luò)中添加一個(gè)3×3或5×5卷積層時(shí),往往會(huì)期望它同時(shí)產(chǎn)生三個(gè)作用:
增大感受野
提高抽象層次,例如從線條到紋理、從紋理到物體的局部
通過(guò)增加深度而一般地提高表征能力(越深,參數(shù)越多,非線性越多,擬合能力越高)
那么,設(shè)計(jì)大卷積核CNN架構(gòu)時(shí),應(yīng)該遵循怎樣的原則呢?
本文指出,應(yīng)該解耦上述三種要素,需要什么效果就用對(duì)應(yīng)的結(jié)構(gòu)來(lái)實(shí)現(xiàn):
用少量大卷積核保證大感受野。
用depthwise 3×3等小卷積提高特征抽象層次。
用一些高效結(jié)構(gòu)(如SE Block、Bottleneck structure等)來(lái)提高模型的深度從而增強(qiáng)其一般的表示能力。
這樣的解耦之所以能夠?qū)崿F(xiàn),正是大卷積核的本質(zhì)優(yōu)勢(shì)所保證的,即不依賴深度堆疊的大感受野。
經(jīng)過(guò)系統(tǒng)研究,本文提出了大卷積核CNN設(shè)計(jì)的四條Architectural Guidelines。
根據(jù)這些guideline,本文提出的UniRepLKNet模型結(jié)構(gòu)如下——
每個(gè)block主要由depthwise conv、SE Block和FFN三個(gè)部分組成。
其中depthwise conv可以是大卷積核(圖中所示的Dilated Reparam Block,其使用膨脹卷積來(lái)輔助大核卷積來(lái)捕捉稀疏的特征而且可以通過(guò)結(jié)構(gòu)重參數(shù)化方法等價(jià)轉(zhuǎn)換為一個(gè)卷積層),也可以只是depthwise 3x3。
多項(xiàng)表現(xiàn)超越Transformer
作為圖像模態(tài)中的老三樣,ImageNet、COCO、ADE20K上的結(jié)果自然是不能少。論文中最多只用ImageNet-22K預(yù)訓(xùn)練,沒(méi)有用更大的數(shù)據(jù)。
雖然大核CNN本來(lái)不是很重視ImageNet(因?yàn)閳D像分類任務(wù)對(duì)表征能力和感受野的要求不高,發(fā)揮不出大kernel的潛力),但UniRepLKNet還是超過(guò)了最新的諸多模型,其實(shí)際測(cè)速的結(jié)果尤為喜人。
例如,UniRepLKNet-XL的ImageNet精度達(dá)到88%,而且實(shí)際速度是DeiT III-L的三倍。量級(jí)較小的UniRepLKNet相對(duì)于FastViT等專門(mén)設(shè)計(jì)的輕量級(jí)模型的優(yōu)勢(shì)也非常明顯。
在COCO目標(biāo)檢測(cè)任務(wù)上,UniRepLKNet最強(qiáng)大的競(jìng)爭(zhēng)者是InternImage:
UniRepLKNet-L在COCO上不及InternImage-L,但是UniRepLKnet-XL超過(guò)了InternImage-XL。
考慮到InternImage團(tuán)隊(duì)在目標(biāo)檢測(cè)領(lǐng)域的積淀非常深厚,這一效果也算很不容易了。
在ADE20K語(yǔ)義分割上,UniRepLKNet的優(yōu)勢(shì)相當(dāng)顯著,最高達(dá)到55.6的mIoU。與ConvNeXt-XL相比超出了整整1.6。
為了驗(yàn)證UniRepLKNet處理時(shí)序數(shù)據(jù)的能力,本文挑戰(zhàn)了一個(gè)數(shù)據(jù)規(guī)模超大的《Nature》級(jí)別的任務(wù):全球氣溫和風(fēng)速預(yù)測(cè)。
盡管UniRepLKNet本來(lái)是為面向圖像任務(wù)設(shè)計(jì)的,它卻能超過(guò)為這個(gè)任務(wù)而設(shè)計(jì)的CorrFormer(前SOTA)。
這一發(fā)現(xiàn)尤為有趣,因?yàn)檫@種超大規(guī)模時(shí)間序列預(yù)測(cè)任務(wù)聽(tīng)起來(lái)更適合LSTM、GNN和Transformer,這次CNN卻將其“偷家”了。
在音頻、視頻和點(diǎn)云任務(wù)上,本文的極簡(jiǎn)處理方法也都十分有效。
One More Thing
除了提出一種在圖像上非常強(qiáng)力的backbone之外,本文所報(bào)告的這些發(fā)現(xiàn)似乎表明,大核CNN的潛力還沒(méi)有得到完全開(kāi)發(fā)。
即便在Transformer的理論強(qiáng)項(xiàng)——“大一統(tǒng)建模能力”上,大核CNN也比我們所想象的更為強(qiáng)大。
本文也報(bào)告了相關(guān)的證據(jù):將kernel size從13減為11,這四個(gè)模態(tài)上的性能都發(fā)生了顯著降低。
此外,作者已經(jīng)放出了所有代碼,并將所有模型和實(shí)驗(yàn)?zāi)_本開(kāi)源。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。