首頁(yè) > 云計(jì)算頻道 > 大模型

騰訊港中文新研究修正認(rèn)知：CNN搞多模態(tài)不弱于Transfromer

2023年12月25日 10:41:26 來(lái)源：量子位公眾號(hào)

　　在Transformer占據(jù)多模態(tài)工具半壁江山的時(shí)代，大核CNN又“殺了回來(lái)”，成為了一匹新的黑馬。

　　騰訊AI實(shí)驗(yàn)室與港中文聯(lián)合團(tuán)隊(duì)提出了一種新的CNN架構(gòu)，圖像識(shí)別精度和速度都超過(guò)了Transformer架構(gòu)模型。

　　切換到點(diǎn)云、音頻、視頻等其他模態(tài)，也無(wú)需改變模型結(jié)構(gòu)，簡(jiǎn)單預(yù)處理即可接近甚至超越SOTA。

　　團(tuán)隊(duì)提出了專門(mén)用于大核CNN架構(gòu)設(shè)計(jì)的四條guideline和一種名為UniRepLKNet的強(qiáng)力backbone。

　　只要用ImageNet-22K對(duì)其進(jìn)行預(yù)訓(xùn)練，精度和速度就都能成為SOTA——

　　ImageNet達(dá)到88%，COCO達(dá)到56.4 box AP，ADE20K達(dá)到55.6 mIoU，實(shí)際測(cè)速優(yōu)勢(shì)很大。

　　在時(shí)序預(yù)測(cè)的超大數(shù)據(jù)上使用UniRepLKNet，也能達(dá)到最佳水平——

　　例如在全球氣溫和風(fēng)速預(yù)測(cè)上，它就超越了Nature子刊上基于Transformer的前SOTA。

　　更多細(xì)節(jié)，我們接著看作者投稿。

　　“Transformer時(shí)代”，為什么還需要CNN

　　在正式介紹UniRepLKNet的原理之前，作者首先解答了兩個(gè)問(wèn)題。

　　第一個(gè)問(wèn)題是，為什么在Transformer大一統(tǒng)各個(gè)模態(tài)的時(shí)代還要研究CNN?

　　作者認(rèn)為，Transformer和CNN只不過(guò)是相互交融的兩種結(jié)構(gòu)設(shè)計(jì)思路罷了，沒(méi)有理由認(rèn)為前者具有本質(zhì)的優(yōu)越性。

　　“Transformer大一統(tǒng)各個(gè)模態(tài)”正是研究團(tuán)隊(duì)試圖修正的認(rèn)知。

　　正如2022年初ConvNeXt、RepLKNet和另外一些工作問(wèn)世之前，“Transformer在圖像任務(wù)上吊打CNN”是主流認(rèn)知。

　　這幾項(xiàng)成果出現(xiàn)后，這一認(rèn)知被修正為“CNN和Transformer在圖像任務(wù)上差不多”。

　　本研究團(tuán)隊(duì)的成果將其進(jìn)一步修正：在點(diǎn)云、音頻、視頻上，CNN比我們想象的強(qiáng)太多了。

　　在時(shí)序預(yù)測(cè)這種并不是CNN傳統(tǒng)強(qiáng)項(xiàng)的領(lǐng)域(LSTM等曾是主流，最近兩年Transformer越來(lái)越多)，CNN都能超過(guò)Transformer，成功將其“偷家”。

　　因此，研究團(tuán)隊(duì)認(rèn)為，CNN在大一統(tǒng)這一點(diǎn)上可能不弱于Transformer。

　　第二個(gè)問(wèn)題是，如何將一個(gè)為圖像任務(wù)設(shè)計(jì)的CNN用于音頻、視頻、點(diǎn)云、時(shí)序數(shù)據(jù)?

　　出于對(duì)簡(jiǎn)潔和通用性的永恒追求，將UniRepLKNet用于其他模態(tài)時(shí)，不對(duì)模型架構(gòu)主體做任何改變(以下實(shí)驗(yàn)用的全都是UniRepLKNet-Small)。

　　只需要將視頻、音頻、點(diǎn)云、時(shí)序數(shù)據(jù)給處理成C×H×W的embedding map(對(duì)于圖像來(lái)說(shuō)，C=3)，就能實(shí)現(xiàn)到其他模態(tài)的過(guò)渡，例如：

　　把音頻的頻譜圖(Time×Frequency)看成是一幅單通道圖像，即C=1，H=T，W=F;

　　將點(diǎn)云進(jìn)行三視圖投影，得到三幅單通道圖像，C=3，H和W可以隨意指定;

　　將視頻中的各幀拼接到一起，極為簡(jiǎn)單地得到一張大圖(例如，16幀的3×224×224視頻拼接得到3×896×896的輸入);

　　對(duì)時(shí)序數(shù)據(jù)，借鑒CorrFormer中的embedding layer將數(shù)據(jù)轉(zhuǎn)換為隱空間中的張量然后簡(jiǎn)單粗暴地將其reshape成一幅單通道圖像。

　　后文展示的結(jié)果將會(huì)證明，如此簡(jiǎn)單的設(shè)計(jì)產(chǎn)生的效果是極為優(yōu)秀的。

　　大卷積核CNN架構(gòu)設(shè)計(jì)

　　2022年，RepLKNet提出了用超大卷積核(從13×13到31×31)來(lái)構(gòu)建現(xiàn)代CNN以及正確使用超大卷積核的幾個(gè)設(shè)計(jì)原則。

　　但從架構(gòu)層面看，RepLKNet只是簡(jiǎn)單地用了Swin Transformer的整體架構(gòu)，并沒(méi)有做什么改動(dòng)。

　　當(dāng)前大核CNN架構(gòu)設(shè)計(jì)要么遵循現(xiàn)有的CNN設(shè)計(jì)原則，要么遵循現(xiàn)有的Transformer設(shè)計(jì)原則。

　　在傳統(tǒng)的卷積網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中，當(dāng)研究者向網(wǎng)絡(luò)中添加一個(gè)3×3或5×5卷積層時(shí)，往往會(huì)期望它同時(shí)產(chǎn)生三個(gè)作用：

　　增大感受野

　　提高抽象層次，例如從線條到紋理、從紋理到物體的局部

　　通過(guò)增加深度而一般地提高表征能力(越深，參數(shù)越多，非線性越多，擬合能力越高)

　　那么，設(shè)計(jì)大卷積核CNN架構(gòu)時(shí)，應(yīng)該遵循怎樣的原則呢?

　　本文指出，應(yīng)該解耦上述三種要素，需要什么效果就用對(duì)應(yīng)的結(jié)構(gòu)來(lái)實(shí)現(xiàn)：

　　用少量大卷積核保證大感受野。

　　用depthwise 3×3等小卷積提高特征抽象層次。

　　用一些高效結(jié)構(gòu)(如SE Block、Bottleneck structure等)來(lái)提高模型的深度從而增強(qiáng)其一般的表示能力。

　　這樣的解耦之所以能夠?qū)崿F(xiàn)，正是大卷積核的本質(zhì)優(yōu)勢(shì)所保證的，即不依賴深度堆疊的大感受野。

　　經(jīng)過(guò)系統(tǒng)研究，本文提出了大卷積核CNN設(shè)計(jì)的四條Architectural Guidelines。

　　根據(jù)這些guideline，本文提出的UniRepLKNet模型結(jié)構(gòu)如下——

　　每個(gè)block主要由depthwise conv、SE Block和FFN三個(gè)部分組成。

　　其中depthwise conv可以是大卷積核(圖中所示的Dilated Reparam Block，其使用膨脹卷積來(lái)輔助大核卷積來(lái)捕捉稀疏的特征而且可以通過(guò)結(jié)構(gòu)重參數(shù)化方法等價(jià)轉(zhuǎn)換為一個(gè)卷積層)，也可以只是depthwise 3x3。

　　多項(xiàng)表現(xiàn)超越Transformer

　　作為圖像模態(tài)中的老三樣，ImageNet、COCO、ADE20K上的結(jié)果自然是不能少。論文中最多只用ImageNet-22K預(yù)訓(xùn)練，沒(méi)有用更大的數(shù)據(jù)。

　　雖然大核CNN本來(lái)不是很重視ImageNet(因?yàn)閳D像分類任務(wù)對(duì)表征能力和感受野的要求不高，發(fā)揮不出大kernel的潛力)，但UniRepLKNet還是超過(guò)了最新的諸多模型，其實(shí)際測(cè)速的結(jié)果尤為喜人。

　　例如，UniRepLKNet-XL的ImageNet精度達(dá)到88%，而且實(shí)際速度是DeiT III-L的三倍。量級(jí)較小的UniRepLKNet相對(duì)于FastViT等專門(mén)設(shè)計(jì)的輕量級(jí)模型的優(yōu)勢(shì)也非常明顯。

　　在COCO目標(biāo)檢測(cè)任務(wù)上，UniRepLKNet最強(qiáng)大的競(jìng)爭(zhēng)者是InternImage：

　　UniRepLKNet-L在COCO上不及InternImage-L，但是UniRepLKnet-XL超過(guò)了InternImage-XL。

　　考慮到InternImage團(tuán)隊(duì)在目標(biāo)檢測(cè)領(lǐng)域的積淀非常深厚，這一效果也算很不容易了。

　　在ADE20K語(yǔ)義分割上，UniRepLKNet的優(yōu)勢(shì)相當(dāng)顯著，最高達(dá)到55.6的mIoU。與ConvNeXt-XL相比超出了整整1.6。

　　為了驗(yàn)證UniRepLKNet處理時(shí)序數(shù)據(jù)的能力，本文挑戰(zhàn)了一個(gè)數(shù)據(jù)規(guī)模超大的《Nature》級(jí)別的任務(wù)：全球氣溫和風(fēng)速預(yù)測(cè)。

　　盡管UniRepLKNet本來(lái)是為面向圖像任務(wù)設(shè)計(jì)的，它卻能超過(guò)為這個(gè)任務(wù)而設(shè)計(jì)的CorrFormer(前SOTA)。

　　這一發(fā)現(xiàn)尤為有趣，因?yàn)檫@種超大規(guī)模時(shí)間序列預(yù)測(cè)任務(wù)聽(tīng)起來(lái)更適合LSTM、GNN和Transformer，這次CNN卻將其“偷家”了。

　　在音頻、視頻和點(diǎn)云任務(wù)上，本文的極簡(jiǎn)處理方法也都十分有效。

　　One More Thing

　　除了提出一種在圖像上非常強(qiáng)力的backbone之外，本文所報(bào)告的這些發(fā)現(xiàn)似乎表明，大核CNN的潛力還沒(méi)有得到完全開(kāi)發(fā)。

　　即便在Transformer的理論強(qiáng)項(xiàng)——“大一統(tǒng)建模能力”上，大核CNN也比我們所想象的更為強(qiáng)大。

　　本文也報(bào)告了相關(guān)的證據(jù)：將kernel size從13減為11，這四個(gè)模態(tài)上的性能都發(fā)生了顯著降低。

　　此外，作者已經(jīng)放出了所有代碼，并將所有模型和實(shí)驗(yàn)?zāi)_本開(kāi)源。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開(kāi)售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

騰訊港中文新研究修正認(rèn)知：CNN搞多模態(tài)不弱于Transfromer

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場(chǎng)：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國(guó)信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

專題

騰訊港中文新研究修正認(rèn)知：CNN搞多模態(tài)不弱于Transfromer

擴(kuò)展閱讀