家庭能源智聯(lián)自由 海辰儲(chǔ)能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroESOpenAI發(fā)布o(jì)3:AI 推理能力的重大突破,得分高達(dá)87.5%亞馬遜云科技推出Amazon Q Developer新功能小象超市,摸著美團(tuán)外賣出海E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動(dòng)6000億GTV后,抖音計(jì)劃偷襲美團(tuán)大本營(yíng)AGI Open Network(AON):賦能每個(gè)人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來(lái)電”有詐?抖音客服上線“驗(yàn)證助手”助用戶識(shí)別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋(píng)果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運(yùn)營(yíng)商e&,展示全球首個(gè)固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒(méi)放棄曲面屏開(kāi)發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營(yíng)商11月成績(jī)單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢(shì)AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    騰訊港中文新研究修正認(rèn)知:CNN搞多模態(tài)不弱于Transfromer

    2023年12月25日 10:41:26   來(lái)源:量子位公眾號(hào)

      在Transformer占據(jù)多模態(tài)工具半壁江山的時(shí)代,大核CNN又“殺了回來(lái)”,成為了一匹新的黑馬。

      騰訊AI實(shí)驗(yàn)室與港中文聯(lián)合團(tuán)隊(duì)提出了一種新的CNN架構(gòu),圖像識(shí)別精度和速度都超過(guò)了Transformer架構(gòu)模型。

      切換到點(diǎn)云、音頻、視頻等其他模態(tài),也無(wú)需改變模型結(jié)構(gòu),簡(jiǎn)單預(yù)處理即可接近甚至超越SOTA。

      團(tuán)隊(duì)提出了專門(mén)用于大核CNN架構(gòu)設(shè)計(jì)的四條guideline和一種名為UniRepLKNet的強(qiáng)力backbone。

      只要用ImageNet-22K對(duì)其進(jìn)行預(yù)訓(xùn)練,精度和速度就都能成為SOTA——

      ImageNet達(dá)到88%,COCO達(dá)到56.4 box AP,ADE20K達(dá)到55.6 mIoU,實(shí)際測(cè)速優(yōu)勢(shì)很大。

      在時(shí)序預(yù)測(cè)的超大數(shù)據(jù)上使用UniRepLKNet,也能達(dá)到最佳水平——

      例如在全球氣溫和風(fēng)速預(yù)測(cè)上,它就超越了Nature子刊上基于Transformer的前SOTA。

      更多細(xì)節(jié),我們接著看作者投稿。

      “Transformer時(shí)代”,為什么還需要CNN

      在正式介紹UniRepLKNet的原理之前,作者首先解答了兩個(gè)問(wèn)題。

      第一個(gè)問(wèn)題是,為什么在Transformer大一統(tǒng)各個(gè)模態(tài)的時(shí)代還要研究CNN?

      作者認(rèn)為,Transformer和CNN只不過(guò)是相互交融的兩種結(jié)構(gòu)設(shè)計(jì)思路罷了,沒(méi)有理由認(rèn)為前者具有本質(zhì)的優(yōu)越性。

      “Transformer大一統(tǒng)各個(gè)模態(tài)”正是研究團(tuán)隊(duì)試圖修正的認(rèn)知。

      正如2022年初ConvNeXt、RepLKNet和另外一些工作問(wèn)世之前,“Transformer在圖像任務(wù)上吊打CNN”是主流認(rèn)知。

      這幾項(xiàng)成果出現(xiàn)后,這一認(rèn)知被修正為“CNN和Transformer在圖像任務(wù)上差不多”。

      本研究團(tuán)隊(duì)的成果將其進(jìn)一步修正:在點(diǎn)云、音頻、視頻上,CNN比我們想象的強(qiáng)太多了。

      在時(shí)序預(yù)測(cè)這種并不是CNN傳統(tǒng)強(qiáng)項(xiàng)的領(lǐng)域(LSTM等曾是主流,最近兩年Transformer越來(lái)越多),CNN都能超過(guò)Transformer,成功將其“偷家”。

      因此,研究團(tuán)隊(duì)認(rèn)為,CNN在大一統(tǒng)這一點(diǎn)上可能不弱于Transformer。

      第二個(gè)問(wèn)題是,如何將一個(gè)為圖像任務(wù)設(shè)計(jì)的CNN用于音頻、視頻、點(diǎn)云、時(shí)序數(shù)據(jù)?

      出于對(duì)簡(jiǎn)潔和通用性的永恒追求,將UniRepLKNet用于其他模態(tài)時(shí),不對(duì)模型架構(gòu)主體做任何改變(以下實(shí)驗(yàn)用的全都是UniRepLKNet-Small)。

      只需要將視頻、音頻、點(diǎn)云、時(shí)序數(shù)據(jù)給處理成C×H×W的embedding map(對(duì)于圖像來(lái)說(shuō),C=3),就能實(shí)現(xiàn)到其他模態(tài)的過(guò)渡,例如:

      把音頻的頻譜圖(Time×Frequency)看成是一幅單通道圖像,即C=1,H=T,W=F;

      將點(diǎn)云進(jìn)行三視圖投影,得到三幅單通道圖像,C=3,H和W可以隨意指定;

      將視頻中的各幀拼接到一起,極為簡(jiǎn)單地得到一張大圖(例如,16幀的3×224×224視頻拼接得到3×896×896的輸入);

      對(duì)時(shí)序數(shù)據(jù),借鑒CorrFormer中的embedding layer將數(shù)據(jù)轉(zhuǎn)換為隱空間中的張量然后簡(jiǎn)單粗暴地將其reshape成一幅單通道圖像。

      后文展示的結(jié)果將會(huì)證明,如此簡(jiǎn)單的設(shè)計(jì)產(chǎn)生的效果是極為優(yōu)秀的。

      大卷積核CNN架構(gòu)設(shè)計(jì)

      2022年,RepLKNet提出了用超大卷積核(從13×13到31×31)來(lái)構(gòu)建現(xiàn)代CNN以及正確使用超大卷積核的幾個(gè)設(shè)計(jì)原則。

      但從架構(gòu)層面看,RepLKNet只是簡(jiǎn)單地用了Swin Transformer的整體架構(gòu),并沒(méi)有做什么改動(dòng)。

      當(dāng)前大核CNN架構(gòu)設(shè)計(jì)要么遵循現(xiàn)有的CNN設(shè)計(jì)原則,要么遵循現(xiàn)有的Transformer設(shè)計(jì)原則。

      在傳統(tǒng)的卷積網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中,當(dāng)研究者向網(wǎng)絡(luò)中添加一個(gè)3×3或5×5卷積層時(shí),往往會(huì)期望它同時(shí)產(chǎn)生三個(gè)作用:

      增大感受野

      提高抽象層次,例如從線條到紋理、從紋理到物體的局部

      通過(guò)增加深度而一般地提高表征能力(越深,參數(shù)越多,非線性越多,擬合能力越高)

      那么,設(shè)計(jì)大卷積核CNN架構(gòu)時(shí),應(yīng)該遵循怎樣的原則呢?

      本文指出,應(yīng)該解耦上述三種要素,需要什么效果就用對(duì)應(yīng)的結(jié)構(gòu)來(lái)實(shí)現(xiàn):

      用少量大卷積核保證大感受野。

      用depthwise 3×3等小卷積提高特征抽象層次。

      用一些高效結(jié)構(gòu)(如SE Block、Bottleneck structure等)來(lái)提高模型的深度從而增強(qiáng)其一般的表示能力。

      這樣的解耦之所以能夠?qū)崿F(xiàn),正是大卷積核的本質(zhì)優(yōu)勢(shì)所保證的,即不依賴深度堆疊的大感受野。

      經(jīng)過(guò)系統(tǒng)研究,本文提出了大卷積核CNN設(shè)計(jì)的四條Architectural Guidelines。

      根據(jù)這些guideline,本文提出的UniRepLKNet模型結(jié)構(gòu)如下——

      每個(gè)block主要由depthwise conv、SE Block和FFN三個(gè)部分組成。

      其中depthwise conv可以是大卷積核(圖中所示的Dilated Reparam Block,其使用膨脹卷積來(lái)輔助大核卷積來(lái)捕捉稀疏的特征而且可以通過(guò)結(jié)構(gòu)重參數(shù)化方法等價(jià)轉(zhuǎn)換為一個(gè)卷積層),也可以只是depthwise 3x3。

      多項(xiàng)表現(xiàn)超越Transformer

      作為圖像模態(tài)中的老三樣,ImageNet、COCO、ADE20K上的結(jié)果自然是不能少。論文中最多只用ImageNet-22K預(yù)訓(xùn)練,沒(méi)有用更大的數(shù)據(jù)。

      雖然大核CNN本來(lái)不是很重視ImageNet(因?yàn)閳D像分類任務(wù)對(duì)表征能力和感受野的要求不高,發(fā)揮不出大kernel的潛力),但UniRepLKNet還是超過(guò)了最新的諸多模型,其實(shí)際測(cè)速的結(jié)果尤為喜人。

      例如,UniRepLKNet-XL的ImageNet精度達(dá)到88%,而且實(shí)際速度是DeiT III-L的三倍。量級(jí)較小的UniRepLKNet相對(duì)于FastViT等專門(mén)設(shè)計(jì)的輕量級(jí)模型的優(yōu)勢(shì)也非常明顯。

      在COCO目標(biāo)檢測(cè)任務(wù)上,UniRepLKNet最強(qiáng)大的競(jìng)爭(zhēng)者是InternImage:

      UniRepLKNet-L在COCO上不及InternImage-L,但是UniRepLKnet-XL超過(guò)了InternImage-XL。

      考慮到InternImage團(tuán)隊(duì)在目標(biāo)檢測(cè)領(lǐng)域的積淀非常深厚,這一效果也算很不容易了。

      在ADE20K語(yǔ)義分割上,UniRepLKNet的優(yōu)勢(shì)相當(dāng)顯著,最高達(dá)到55.6的mIoU。與ConvNeXt-XL相比超出了整整1.6。

      為了驗(yàn)證UniRepLKNet處理時(shí)序數(shù)據(jù)的能力,本文挑戰(zhàn)了一個(gè)數(shù)據(jù)規(guī)模超大的《Nature》級(jí)別的任務(wù):全球氣溫和風(fēng)速預(yù)測(cè)。

      盡管UniRepLKNet本來(lái)是為面向圖像任務(wù)設(shè)計(jì)的,它卻能超過(guò)為這個(gè)任務(wù)而設(shè)計(jì)的CorrFormer(前SOTA)。

      這一發(fā)現(xiàn)尤為有趣,因?yàn)檫@種超大規(guī)模時(shí)間序列預(yù)測(cè)任務(wù)聽(tīng)起來(lái)更適合LSTM、GNN和Transformer,這次CNN卻將其“偷家”了。

      在音頻、視頻和點(diǎn)云任務(wù)上,本文的極簡(jiǎn)處理方法也都十分有效。

      One More Thing

      除了提出一種在圖像上非常強(qiáng)力的backbone之外,本文所報(bào)告的這些發(fā)現(xiàn)似乎表明,大核CNN的潛力還沒(méi)有得到完全開(kāi)發(fā)。

      即便在Transformer的理論強(qiáng)項(xiàng)——“大一統(tǒng)建模能力”上,大核CNN也比我們所想象的更為強(qiáng)大。

      本文也報(bào)告了相關(guān)的證據(jù):將kernel size從13減為11,這四個(gè)模態(tài)上的性能都發(fā)生了顯著降低。

      此外,作者已經(jīng)放出了所有代碼,并將所有模型和實(shí)驗(yàn)?zāi)_本開(kāi)源。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。