合合信息:破解大模型語料庫難題的引領(lǐng)者核聚變2024北京站高能開幕,ROG電競顯示器強(qiáng)勢助力游戲狂歡華為企業(yè)客戶支持圓桌會議成功舉辦,共筑ICT基礎(chǔ)設(shè)施維護(hù)新未來66元搶爆款A(yù)R眼鏡!京東AR眼鏡超級新品日30天無憂適用等你來攜手共進(jìn),智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實(shí)驗(yàn)合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國品牌,讓東南亞感受“消費(fèi)升級”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%
  • 首頁 > 云計(jì)算頻道 > 大模型

    上交復(fù)旦等發(fā)布Alpha-CLIP:同時保持全圖+局部檢測能力

    2023年12月13日 18:32:43   來源:微信公眾號 新智元

      本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元。

      【新智元導(dǎo)讀】本文介紹了一個名為Alph-CLIP的框架,它在原始的接受RGB三通道輸入的CLIP模型的上額外增加了一個alpha通道。在千萬量級的RGBA-region的圖像文本對上進(jìn)行訓(xùn)練后,Alpha-CLIP可以在保證CLIP原始感知能力的前提下,關(guān)注到任意指定區(qū)域。通過替換原始CLIP的應(yīng)用場景,Alpha-CLIP在圖像識別、視覺-語言大模型、2D乃至3D生成領(lǐng)域都展現(xiàn)出強(qiáng)大作用。

      CLIP是目前最流行的視覺基座模型,其應(yīng)用場景包括但不限于:

      與LLM大語言模型結(jié)合成為視覺多模態(tài)大模型;

      作為圖像生成(Stable Diffusion)、點(diǎn)云生成(Point-E)的condition model,實(shí)現(xiàn)image-to-3D;

      用于指導(dǎo)NeRF的優(yōu)化方向從而實(shí)現(xiàn)text-to-3D;

      本身用于開放類別的識別和檢測。

      但CLIP必須以整張圖片作為輸入并進(jìn)行特征提取,無法關(guān)注到指定的任意區(qū)域,不過自然的2D圖片中往往包含不同的物體,part和thing,如果能由用戶或檢測模型指定需要關(guān)注的區(qū)域,在圖像編碼的過程就確定需要關(guān)注的對象,將會提升CLIP模型的可控制性和區(qū)域檢測能力。

      為此,上海交通大學(xué)、復(fù)旦大學(xué)、香港中文大學(xué)、澳門大學(xué)等機(jī)構(gòu)的學(xué)者們提出了Alpha-CLIP模型,在原始CLIP模型的RGB三個通道的基礎(chǔ)上額外引入了第四個alpha通道來決定需要關(guān)注的區(qū)域。

      通過構(gòu)造千萬量級的「RGBA四通道圖片-文本對」對Alpha-CLIP進(jìn)行訓(xùn)練,Alpha-CLIP不僅在ImageNet上保持了原始的全圖檢測能力,還能對用戶指定的任意區(qū)域進(jìn)行highlight關(guān)注。下面分別介紹Alpha-CLIP的應(yīng)用場景。

      圖像分類

      如圖所示,對于ImagNet的一張圖片,研究人員可以通過alpha-map控制CLIP去關(guān)注魚或漁夫。

      以ImageNet的Zero-Shot Classification作為評價指標(biāo),研究人員驗(yàn)證了在對全圖進(jìn)行識別時,Alpha-CLIP可以保持原本CLIP的分類準(zhǔn)確率。

      進(jìn)一步地,在給出了需要關(guān)注區(qū)域的長方形box或者mask時,Alpha-CLIP可以進(jìn)一步提升分類準(zhǔn)確率。

      與LLM大語言模型的結(jié)合

      將主流的LLaVA-1.5中的CLIP基座模型替換為Alpha-CLIP,用戶可以通過簡單地用畫筆標(biāo)記處需要關(guān)注的區(qū)域,從而進(jìn)行指定區(qū)域的對話交互。

      在定量實(shí)驗(yàn)方面,研究人員通過LLaVA測試了MLLM的region caption能力。通過在RefCOCO和VG上分別進(jìn)行finetune,取得了SOTA的region caption分?jǐn)?shù)。

      與Stable Diffusion的結(jié)合

      Stable-Diffusion是目前主流的2D圖片生成模型,其Image Variation版本可以實(shí)現(xiàn)「圖生圖」,其中圖片的編碼器也是CLIP模型。通過將該模型替換為Alpha-CLIP,可以實(shí)現(xiàn)更復(fù)雜圖片中指定物體的生成(同時較好地保留背景)。

      如上圖所示,使用原始的CLIP會生成同時具有獅子和老虎特征的「獅虎獸」,而Alpha-CLIP能夠很好地區(qū)分兩個物體,從而指導(dǎo)Stable Diffusion模型生成更專一的圖片。

      與Point-E的結(jié)合

      Point-E是Open-AI開源的一個支持Image-to-3D和text-to-3D的點(diǎn)云diffusion模型,通過將它的Image編碼器從原始的CLIP替換為Alpha-CLIP。

      可以支持用戶對任意區(qū)域進(jìn)行關(guān)注,從而恢復(fù)丟失的「表針」和「盾牌的十字架」。

      Attention Map可視化

      本工作對Alpha-CLIP的注意力進(jìn)行可視化,以檢查Alpha-CLIP是否更加關(guān)注用戶定義alpha-map。

      通過檢查視覺編碼器中最后一個Transformer塊中[CLS] token的注意力圖?梢暬捎昧司哂16個注意頭的ViT-L/14模型。

      為了進(jìn)行公正比較,使用第5和第16個注意頭的注意力圖進(jìn)行可視化,因?yàn)槲覀儼l(fā)現(xiàn)在這16個頭中,這兩個特征圖最為明顯。

      結(jié)果如下圖所示。這種可視化驗(yàn)證了Alpha-CLIP更加關(guān)注要聚焦的區(qū)域,更重要的是,它在保留原始CLIP特征位置的二維位置信息時沒有造成損害。

      結(jié)論

      本文介紹的這項(xiàng)工作提出了Alpha-CLIP模型,該模型引入了一個額外的alpha通道,用于指定感興趣的區(qū)域。

      通過對數(shù)百萬個RGBA區(qū)域-文本對進(jìn)行訓(xùn)練,Alpha-CLIP不僅表現(xiàn)出卓越的區(qū)域關(guān)注能力,而且確保其輸出空間與原始的CLIP模型保持一致。這種一致性使得Alpha-CLIP在CLIP的各種下游應(yīng)用中能夠輕松替代,無縫銜接。

      研究人員證明了當(dāng)提供特定關(guān)注的區(qū)域時,Alpha-CLIP展現(xiàn)出了更強(qiáng)大的Zero-Shot識別能力,并驗(yàn)證了它在許多下游任務(wù)中的有用性。CLIP的應(yīng)用遠(yuǎn)遠(yuǎn)超出了本文的范圍。研究人員希望在前景區(qū)域或mask較容易獲得時,Alpha-CLIP將能夠在更多場景中得到應(yīng)用。

      雖然Alpha-CLIP在需要關(guān)注區(qū)域的各種場景中表現(xiàn)出有效的性能,但目前的結(jié)構(gòu)和訓(xùn)練過程限制了其專注于多個對象或建模不同對象之間關(guān)系的能力。

      此外,當(dāng)前的訓(xùn)練方法限制了alpha通道在中間值之外的泛化(只能接受0,1兩個值),因此用戶無法指定注意力的幅度。

      另一個限制同時存在于Alpha-CLIP和原始CLIP中,即純Transformer結(jié)構(gòu)的編碼器分辨率較低,這阻礙了Alpha-CLIP識別小物體并進(jìn)行關(guān)注。

      研究人員計(jì)劃在未來的工作中解決這些限制并擴(kuò)展CLIP的輸入分辨率,相信這些未來的方向是增強(qiáng)Alpha-CLIP能力并在各種下游任務(wù)中擴(kuò)展其實(shí)用性的途徑。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。