2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測(cè)試版現(xiàn)已開(kāi)放革命性AI對(duì)話系統(tǒng)Moshi問(wèn)世:機(jī)器也能說(shuō)人話了?阿里國(guó)際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊(duì)煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    騰訊港中文新研究修正認(rèn)知:CNN搞多模態(tài)不弱于Transfromer

    2023年12月25日 10:41:26   來(lái)源:量子位公眾號(hào)

      在Transformer占據(jù)多模態(tài)工具半壁江山的時(shí)代,大核CNN又“殺了回來(lái)”,成為了一匹新的黑馬。

      騰訊AI實(shí)驗(yàn)室與港中文聯(lián)合團(tuán)隊(duì)提出了一種新的CNN架構(gòu),圖像識(shí)別精度和速度都超過(guò)了Transformer架構(gòu)模型。

      切換到點(diǎn)云、音頻、視頻等其他模態(tài),也無(wú)需改變模型結(jié)構(gòu),簡(jiǎn)單預(yù)處理即可接近甚至超越SOTA。

      團(tuán)隊(duì)提出了專門(mén)用于大核CNN架構(gòu)設(shè)計(jì)的四條guideline和一種名為UniRepLKNet的強(qiáng)力backbone。

      只要用ImageNet-22K對(duì)其進(jìn)行預(yù)訓(xùn)練,精度和速度就都能成為SOTA——

      ImageNet達(dá)到88%,COCO達(dá)到56.4 box AP,ADE20K達(dá)到55.6 mIoU,實(shí)際測(cè)速優(yōu)勢(shì)很大。

      在時(shí)序預(yù)測(cè)的超大數(shù)據(jù)上使用UniRepLKNet,也能達(dá)到最佳水平——

      例如在全球氣溫和風(fēng)速預(yù)測(cè)上,它就超越了Nature子刊上基于Transformer的前SOTA。

      更多細(xì)節(jié),我們接著看作者投稿。

      “Transformer時(shí)代”,為什么還需要CNN

      在正式介紹UniRepLKNet的原理之前,作者首先解答了兩個(gè)問(wèn)題。

      第一個(gè)問(wèn)題是,為什么在Transformer大一統(tǒng)各個(gè)模態(tài)的時(shí)代還要研究CNN?

      作者認(rèn)為,Transformer和CNN只不過(guò)是相互交融的兩種結(jié)構(gòu)設(shè)計(jì)思路罷了,沒(méi)有理由認(rèn)為前者具有本質(zhì)的優(yōu)越性。

      “Transformer大一統(tǒng)各個(gè)模態(tài)”正是研究團(tuán)隊(duì)試圖修正的認(rèn)知。

      正如2022年初ConvNeXt、RepLKNet和另外一些工作問(wèn)世之前,“Transformer在圖像任務(wù)上吊打CNN”是主流認(rèn)知。

      這幾項(xiàng)成果出現(xiàn)后,這一認(rèn)知被修正為“CNN和Transformer在圖像任務(wù)上差不多”。

      本研究團(tuán)隊(duì)的成果將其進(jìn)一步修正:在點(diǎn)云、音頻、視頻上,CNN比我們想象的強(qiáng)太多了。

      在時(shí)序預(yù)測(cè)這種并不是CNN傳統(tǒng)強(qiáng)項(xiàng)的領(lǐng)域(LSTM等曾是主流,最近兩年Transformer越來(lái)越多),CNN都能超過(guò)Transformer,成功將其“偷家”。

      因此,研究團(tuán)隊(duì)認(rèn)為,CNN在大一統(tǒng)這一點(diǎn)上可能不弱于Transformer。

      第二個(gè)問(wèn)題是,如何將一個(gè)為圖像任務(wù)設(shè)計(jì)的CNN用于音頻、視頻、點(diǎn)云、時(shí)序數(shù)據(jù)?

      出于對(duì)簡(jiǎn)潔和通用性的永恒追求,將UniRepLKNet用于其他模態(tài)時(shí),不對(duì)模型架構(gòu)主體做任何改變(以下實(shí)驗(yàn)用的全都是UniRepLKNet-Small)。

      只需要將視頻、音頻、點(diǎn)云、時(shí)序數(shù)據(jù)給處理成C×H×W的embedding map(對(duì)于圖像來(lái)說(shuō),C=3),就能實(shí)現(xiàn)到其他模態(tài)的過(guò)渡,例如:

      把音頻的頻譜圖(Time×Frequency)看成是一幅單通道圖像,即C=1,H=T,W=F;

      將點(diǎn)云進(jìn)行三視圖投影,得到三幅單通道圖像,C=3,H和W可以隨意指定;

      將視頻中的各幀拼接到一起,極為簡(jiǎn)單地得到一張大圖(例如,16幀的3×224×224視頻拼接得到3×896×896的輸入);

      對(duì)時(shí)序數(shù)據(jù),借鑒CorrFormer中的embedding layer將數(shù)據(jù)轉(zhuǎn)換為隱空間中的張量然后簡(jiǎn)單粗暴地將其reshape成一幅單通道圖像。

      后文展示的結(jié)果將會(huì)證明,如此簡(jiǎn)單的設(shè)計(jì)產(chǎn)生的效果是極為優(yōu)秀的。

      大卷積核CNN架構(gòu)設(shè)計(jì)

      2022年,RepLKNet提出了用超大卷積核(從13×13到31×31)來(lái)構(gòu)建現(xiàn)代CNN以及正確使用超大卷積核的幾個(gè)設(shè)計(jì)原則。

      但從架構(gòu)層面看,RepLKNet只是簡(jiǎn)單地用了Swin Transformer的整體架構(gòu),并沒(méi)有做什么改動(dòng)。

      當(dāng)前大核CNN架構(gòu)設(shè)計(jì)要么遵循現(xiàn)有的CNN設(shè)計(jì)原則,要么遵循現(xiàn)有的Transformer設(shè)計(jì)原則。

      在傳統(tǒng)的卷積網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中,當(dāng)研究者向網(wǎng)絡(luò)中添加一個(gè)3×3或5×5卷積層時(shí),往往會(huì)期望它同時(shí)產(chǎn)生三個(gè)作用:

      增大感受野

      提高抽象層次,例如從線條到紋理、從紋理到物體的局部

      通過(guò)增加深度而一般地提高表征能力(越深,參數(shù)越多,非線性越多,擬合能力越高)

      那么,設(shè)計(jì)大卷積核CNN架構(gòu)時(shí),應(yīng)該遵循怎樣的原則呢?

      本文指出,應(yīng)該解耦上述三種要素,需要什么效果就用對(duì)應(yīng)的結(jié)構(gòu)來(lái)實(shí)現(xiàn):

      用少量大卷積核保證大感受野。

      用depthwise 3×3等小卷積提高特征抽象層次。

      用一些高效結(jié)構(gòu)(如SE Block、Bottleneck structure等)來(lái)提高模型的深度從而增強(qiáng)其一般的表示能力。

      這樣的解耦之所以能夠?qū)崿F(xiàn),正是大卷積核的本質(zhì)優(yōu)勢(shì)所保證的,即不依賴深度堆疊的大感受野。

      經(jīng)過(guò)系統(tǒng)研究,本文提出了大卷積核CNN設(shè)計(jì)的四條Architectural Guidelines。

      根據(jù)這些guideline,本文提出的UniRepLKNet模型結(jié)構(gòu)如下——

      每個(gè)block主要由depthwise conv、SE Block和FFN三個(gè)部分組成。

      其中depthwise conv可以是大卷積核(圖中所示的Dilated Reparam Block,其使用膨脹卷積來(lái)輔助大核卷積來(lái)捕捉稀疏的特征而且可以通過(guò)結(jié)構(gòu)重參數(shù)化方法等價(jià)轉(zhuǎn)換為一個(gè)卷積層),也可以只是depthwise 3x3。

      多項(xiàng)表現(xiàn)超越Transformer

      作為圖像模態(tài)中的老三樣,ImageNet、COCO、ADE20K上的結(jié)果自然是不能少。論文中最多只用ImageNet-22K預(yù)訓(xùn)練,沒(méi)有用更大的數(shù)據(jù)。

      雖然大核CNN本來(lái)不是很重視ImageNet(因?yàn)閳D像分類任務(wù)對(duì)表征能力和感受野的要求不高,發(fā)揮不出大kernel的潛力),但UniRepLKNet還是超過(guò)了最新的諸多模型,其實(shí)際測(cè)速的結(jié)果尤為喜人。

      例如,UniRepLKNet-XL的ImageNet精度達(dá)到88%,而且實(shí)際速度是DeiT III-L的三倍。量級(jí)較小的UniRepLKNet相對(duì)于FastViT等專門(mén)設(shè)計(jì)的輕量級(jí)模型的優(yōu)勢(shì)也非常明顯。

      在COCO目標(biāo)檢測(cè)任務(wù)上,UniRepLKNet最強(qiáng)大的競(jìng)爭(zhēng)者是InternImage:

      UniRepLKNet-L在COCO上不及InternImage-L,但是UniRepLKnet-XL超過(guò)了InternImage-XL。

      考慮到InternImage團(tuán)隊(duì)在目標(biāo)檢測(cè)領(lǐng)域的積淀非常深厚,這一效果也算很不容易了。

      在ADE20K語(yǔ)義分割上,UniRepLKNet的優(yōu)勢(shì)相當(dāng)顯著,最高達(dá)到55.6的mIoU。與ConvNeXt-XL相比超出了整整1.6。

      為了驗(yàn)證UniRepLKNet處理時(shí)序數(shù)據(jù)的能力,本文挑戰(zhàn)了一個(gè)數(shù)據(jù)規(guī)模超大的《Nature》級(jí)別的任務(wù):全球氣溫和風(fēng)速預(yù)測(cè)。

      盡管UniRepLKNet本來(lái)是為面向圖像任務(wù)設(shè)計(jì)的,它卻能超過(guò)為這個(gè)任務(wù)而設(shè)計(jì)的CorrFormer(前SOTA)。

      這一發(fā)現(xiàn)尤為有趣,因?yàn)檫@種超大規(guī)模時(shí)間序列預(yù)測(cè)任務(wù)聽(tīng)起來(lái)更適合LSTM、GNN和Transformer,這次CNN卻將其“偷家”了。

      在音頻、視頻和點(diǎn)云任務(wù)上,本文的極簡(jiǎn)處理方法也都十分有效。

      One More Thing

      除了提出一種在圖像上非常強(qiáng)力的backbone之外,本文所報(bào)告的這些發(fā)現(xiàn)似乎表明,大核CNN的潛力還沒(méi)有得到完全開(kāi)發(fā)。

      即便在Transformer的理論強(qiáng)項(xiàng)——“大一統(tǒng)建模能力”上,大核CNN也比我們所想象的更為強(qiáng)大。

      本文也報(bào)告了相關(guān)的證據(jù):將kernel size從13減為11,這四個(gè)模態(tài)上的性能都發(fā)生了顯著降低。

      此外,作者已經(jīng)放出了所有代碼,并將所有模型和實(shí)驗(yàn)?zāi)_本開(kāi)源。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。