抖音短劇會員制,用戶爭奪下的折中嘗試接手高德近一年,郭寧找到最優(yōu)路線了嗎?市值首次突破千億大關(guān),江淮汽車能被看好嗎?迅雷發(fā)布2024年第三季度財(cái)報(bào): 凈利潤440萬美元B站發(fā)布2024年Q3財(cái)報(bào):首次實(shí)現(xiàn)單季度盈利健康行業(yè)雙11數(shù)據(jù)戰(zhàn)報(bào):銷量飆升 健康消費(fèi)成熱潮零碳科技賦能鄉(xiāng)村振興,下黨零碳示范正式落成教育行業(yè)雙11數(shù)據(jù)戰(zhàn)報(bào):教育智能硬件市場火爆極米雙11戰(zhàn)報(bào):全渠道GMV破7億 總銷量破21萬臺消息稱三星正考慮委托臺積電量產(chǎn)Exynos芯片蘋果遭4000萬英國iCloud用戶集體訴訟,面臨30億英鎊索賠英特爾將更多Arrow Lake芯片訂單外包給臺積電三星電子今年已向85家公司轉(zhuǎn)讓128項(xiàng)專利AI智能手機(jī)時(shí)代曙光已現(xiàn) 2024年中國高端手機(jī)市場銷售同比增長8%消失的晚會背后,淘天這屆雙十一也有壓力?小米汽車發(fā)布智能底盤預(yù)研技術(shù) 為完全自動(dòng)駕駛做好準(zhǔn)備沃爾沃宣布將所持領(lǐng)克30%股份出售給極氪,交易對價(jià)54億元日產(chǎn)汽車宣布全球減產(chǎn)兩成,裁員9000人抖音呼喚“李子柒”不要再被參數(shù)迷惑了,高端Mini LED電視應(yīng)該從這些方面入手!
  • 首頁 > 云計(jì)算頻道 > 大模型

    圖像偽造照妖鏡!北大發(fā)布多模態(tài)LLM圖像篡改檢測定位框架FakeShield

    2024年10月25日 09:23:11   來源:新智元公眾號

      隨著生成式人工智能(AIGC)的迅猛發(fā)展,圖像編輯與合成技術(shù)變得愈加成熟與普及。這一趨勢為圖像內(nèi)容創(chuàng)作帶來了便捷的同時(shí),也顯著增加了篡改檢測的難度。

      用戶能夠通過Photoshop、DeepFake、AIGC等工具對圖像進(jìn)行高質(zhì)量編輯,且往往不留任何痕跡。在此背景下,如何準(zhǔn)確檢測并定位篡改區(qū)域,成為了學(xué)術(shù)界與工業(yè)界的關(guān)注重點(diǎn)。

      盡管現(xiàn)有的圖像篡改檢測與定位(IFDL)算法在網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略上取得了一定進(jìn)展,但仍存在幾個(gè)主要問題:

      1. 大多數(shù)方法采用黑箱模型,僅輸出真實(shí)性概率,缺乏詳細(xì)的檢測解釋,導(dǎo)致用戶對結(jié)果的信任度降低。

      2. 現(xiàn)有算法通常針對特定篡改技術(shù),缺乏應(yīng)對多樣化篡改手段的能力,降低了實(shí)用性。

      為了解決這些問題,如圖1所示,北京大學(xué)與華南理工大學(xué)的研究團(tuán)隊(duì)提出了一種全新的任務(wù):可解釋的圖像偽造檢測與定位(e-IFDL),并設(shè)計(jì)了一個(gè)新穎的多模態(tài)偽造檢測定位框架:FakeShield。

      結(jié)合多模態(tài)大語言模型的視覺和語言理解能力,實(shí)現(xiàn)在檢測圖像真實(shí)性,生成篡改區(qū)域掩膜的同時(shí),提供詳細(xì)解釋,進(jìn)而增強(qiáng)了檢測定位過程的透明性與泛化性。

      圖1:(a)傳統(tǒng)IFDL方法,(b)可解釋的IFDL方法

      為了解決現(xiàn)有IFDL方法的不足,F(xiàn)akeShield提出了以下主要貢獻(xiàn):

      1. 提出了首個(gè)多模態(tài)大模型框架用于圖像篡改檢測與定位,不僅實(shí)現(xiàn)了檢測與定位過程的解耦,還提供了合理的判斷依據(jù),解決了現(xiàn)有方法的黑箱問題。

      2. 利用GPT-4o豐富現(xiàn)有IFDL數(shù)據(jù)集,構(gòu)建了多模態(tài)篡改描述數(shù)據(jù)集(MMTD-Set),通過關(guān)注不同篡改特征,生成「圖像-掩膜-描述」三元組,提高了模型的分析能力。

      3. 設(shè)計(jì)了基于領(lǐng)域標(biāo)簽引導(dǎo)的解釋性篡改檢測模塊(DTE-FDM),在單一模型中檢測多種篡改類型,緩解了數(shù)據(jù)域沖突問題。同時(shí),通過多模態(tài)篡改定位模塊(MFLM),對齊視覺和語言特征,實(shí)現(xiàn)精準(zhǔn)的篡改區(qū)域定位。

      基于上述創(chuàng)新,F(xiàn)akeShield不僅提升了篡改檢測定位的準(zhǔn)確性和解釋性,還顯著增強(qiáng)了模型的適應(yīng)性和實(shí)用性,為圖像篡改檢測領(lǐng)域提供了一種全面而高效的解決方案。

      MMTD-Set數(shù)據(jù)集

      如圖2所示,我們根據(jù)篡改方法,將篡改圖片分為PhotoShop、DeepFake、AIGC-Editing三個(gè)數(shù)據(jù)域;诂F(xiàn)有的IFDL數(shù)據(jù)集,我們利用GPT-4o生成對于篡改圖像的分析與描述,構(gòu)建「圖像-掩膜-描述」三元組,以支持模型的多模態(tài)訓(xùn)練。另外,針對不同篡改類型,我們設(shè)計(jì)了特定的描述提示,引導(dǎo)GPT關(guān)注不同的像素偽影和語義錯(cuò)誤。

    圖2:MMTD-Set數(shù)據(jù)集構(gòu)建過程

      圖2:MMTD-Set數(shù)據(jù)集構(gòu)建過程

      在MMTD-Set的構(gòu)建過程中,prompt設(shè)計(jì)是關(guān)鍵環(huán)節(jié),旨在確保GPT-4o能準(zhǔn)確生成與篡改圖像相關(guān)的高質(zhì)量描述。在輸入編輯后的圖像及其二值掩膜時(shí),prompt的設(shè)計(jì)圍繞兩個(gè)主要方面展開:篡改區(qū)域的定位和可見細(xì)節(jié)的捕捉。

      在定位描述中,GPT-4o需要對篡改區(qū)域的絕對位置和相對位置進(jìn)行清晰表達(dá)。絕對位置指篡改區(qū)域在整個(gè)圖像中的位置,如「圖像的左上角」或「靠近圖像下半部分」。相對位置則要求描述篡改區(qū)域與其他物體之間的關(guān)系,如「在桌面上方」或「靠近人群」。這種雙重描述的設(shè)計(jì)可以幫助模型更準(zhǔn)確地感知篡改區(qū)域在圖像中的位置,確保輸出的掩膜與實(shí)際篡改區(qū)域一致。

      在可見細(xì)節(jié)的捕捉上,prompt重點(diǎn)關(guān)注多種視覺異常,這些異常反映了篡改過程中可能留下的偽影和邏輯錯(cuò)誤。

      對于Photoshop篡改,prompt重點(diǎn)關(guān)注像素級偽影和不自然的邊緣,要求模型檢查光照一致性、像素模糊和分辨率變化,同時(shí)判斷是否違反物理規(guī)律,如缺失的陰影或透視關(guān)系不合理。在DeepFake數(shù)據(jù)中,prompt強(qiáng)調(diào)面部細(xì)節(jié)和語義邏輯,要求模型注意皮膚紋理的連貫性、表情的自然性以及光影的匹配,留意面部對稱性和眼睛反射的異常。

      對于AIGC編輯,prompt聚焦于文字生成和視覺邏輯,要求分析文字拼寫是否正確、排列是否合理,并判斷場景中光影和對象位置的合理性。這種針對不同篡改類型的prompt設(shè)計(jì)確保了FakeShield在檢測與解釋上的高效性和準(zhǔn)確性。

      FakeShield框架

      如圖3所示,該框架包括域標(biāo)簽引導(dǎo)的可解釋偽造檢測模塊(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模態(tài)偽造定位模塊(Multi-modal Forgery Localization Module,MFLM)兩個(gè)關(guān)鍵部分。

      DTE-FDM負(fù)責(zé)圖像偽造檢測與檢測結(jié)果分析,利用數(shù)據(jù)域標(biāo)簽(domain tag)彌合不同偽造類型數(shù)據(jù)之間的數(shù)據(jù)域沖突,引導(dǎo)多模態(tài)大語言模型生成檢測結(jié)果及判定依據(jù)。MFLM則使用DTE-FDM輸出的對于篡改區(qū)域的描述作為視覺分割模型的Prompt,引導(dǎo)其精確定位篡改區(qū)域。

    圖3:FakeShield框架圖

      圖3:FakeShield框架圖

      Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)

      DTE-FDM模塊負(fù)責(zé)圖像偽造檢測與檢測結(jié)果的分析,通過生成數(shù)據(jù)域標(biāo)簽(domain tag)來緩解不同偽造類型數(shù)據(jù)(如Photoshop編輯、DeepFake、AIGC編輯)之間的數(shù)據(jù)域沖突。這些標(biāo)簽引導(dǎo)多模態(tài)大語言模型(LLM)聚焦于各類型篡改的特征,實(shí)現(xiàn)針對性檢測與解釋。

      在檢測過程中,輸入圖像I_ori通過數(shù)據(jù)域標(biāo)簽生成器G_dt分配特定標(biāo)簽T_tag,表明該圖像的偽造類型。接著,圖像經(jīng)過編碼器F_enc和線性投影層F_proj轉(zhuǎn)化為特征向量T_img。

      這些圖像特征與指令文本T_ins一并輸入LLM,生成檢測結(jié)果O_det,包括是否篡改、具體的篡改區(qū)域描述以及解釋性分析。

      具體過程如下:

      DTE-FDM不僅判斷圖像的真實(shí)性,還根據(jù)不同偽造類型生成詳細(xì)的判定依據(jù),包括光照一致性、邊緣偽影、分辨率差異等。這種設(shè)計(jì)確保模型能夠應(yīng)對多樣化的偽造場景,增強(qiáng)了檢測的準(zhǔn)確性和解釋性,使FakeShield在應(yīng)對復(fù)雜篡改任務(wù)時(shí)具有更強(qiáng)的泛化能力與實(shí)用性。

      Multi-modal Forgery Localization Module(MFLM)

      MFLM模塊負(fù)責(zé)精準(zhǔn)定位圖像中的篡改區(qū)域,通過多模態(tài)特征對齊的方式將文本和視覺信息融合,從而生成準(zhǔn)確的篡改掩膜。MFLM的設(shè)計(jì)旨在解決僅依賴單一模態(tài)信息所帶來的定位不準(zhǔn)確問題,增強(qiáng)對復(fù)雜篡改區(qū)域的識別能力。

      在MFLM中,輸入的圖像I_ori經(jīng)過Tamper Comprehension Module (TCM) 編碼,將圖像特征與解釋性文本O_det進(jìn)行對齊。對齊后的嵌入表示通過多層感知機(jī)(MLP)投影為特殊的令牌嵌入用于指導(dǎo)分割模型生成篡改區(qū)域掩膜,用于指導(dǎo)分割模型生成篡改區(qū)域掩膜M_loc。

      整個(gè)過程如下:

      其中,S_enc和S_dec分別為圖像的編碼器與解碼器,Extract(⋅)為提取嵌入的操作,通過上述步驟,MFLM利用文本描述和圖像特征的對齊生成準(zhǔn)確的二值掩膜。

      此外,MFLM使用了LoRA微調(diào)技術(shù),對模型進(jìn)行輕量化優(yōu)化,提高了處理效率并降低了計(jì)算成本。與單一模態(tài)分割方法相比,這種多模態(tài)交互的設(shè)計(jì)使得MFLM能夠應(yīng)對更加復(fù)雜的篡改場景,如光照不一致、透視錯(cuò)誤和對象拼接,從而顯著提升篡改區(qū)域的定位準(zhǔn)確性。

      實(shí)驗(yàn)結(jié)果

      我們對FakeShield與多種IFDL方法和多模態(tài)大語言模型(MLLM)在檢測、解釋和定位方面的性能進(jìn)行了全面對比。為了確保結(jié)果的公平性,所有IFDL方法均在與FakeShield相同的數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測試。

      這一比較覆蓋了Photoshop、DeepFake以及AIGC編輯等多種篡改場景,全面評估了各模型在多模態(tài)信息融合和復(fù)雜篡改檢測中的表現(xiàn)。

      檢測性能對比

      我們與MVSS-Net,CAT-Net等其他先進(jìn)的IFDL方法進(jìn)行了檢測性能的對比,結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明,F(xiàn)akeShield在Photoshop、DeepFake和AIGC編輯等數(shù)據(jù)集上的檢測準(zhǔn)確率(ACC)和F1分?jǐn)?shù)均顯著優(yōu)于其他方法。通過引入域標(biāo)簽引導(dǎo)策略(domain-tag guidance),F(xiàn)akeShield能夠有效處理多種篡改類型,增強(qiáng)跨領(lǐng)域的泛化能力。

    表1:FakeShield與主流IFDL方法的定位性能比較

      表1:FakeShield與主流IFDL方法的定位性能比較

      解釋性能對比

      我們通過與預(yù)訓(xùn)練的多模態(tài)大語言模型(M-LLMs)在Photoshop、DeepFake和AIGC編輯數(shù)據(jù)集上的表現(xiàn)進(jìn)行對比,評估了FakeShield的解釋能力,結(jié)果如表2所示。

      我們采用余弦語義相似度(CSS)作為衡量指標(biāo),F(xiàn)akeShield在各項(xiàng)測試中均取得了最高分?jǐn)?shù),展現(xiàn)了其生成準(zhǔn)確且詳細(xì)篡改區(qū)域描述的能力。這表明,F(xiàn)akeShield能夠在復(fù)雜的篡改場景中生成與真實(shí)情況高度一致的解釋性描述,大幅提升了模型在檢測過程中的可解釋性與透明度。

    表2:FakeShield與主流通用MLLM方法的解釋性能比較

      表2:FakeShield與主流通用MLLM方法的解釋性能比較

      定位性能對比

      我們通過與其他先進(jìn)的IFDL方法在Photoshop和AIGC編輯等數(shù)據(jù)集上的表現(xiàn)進(jìn)行對比,評估了FakeShield在篡改區(qū)域定位方面的能力,結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明,F(xiàn)akeShield在大多數(shù)測試集中均取得了最高的IoU和F1分?jǐn)?shù)。

    表3:FakeShield與主流IFDL方法的定位性能比較

      表3:FakeShield與主流IFDL方法的定位性能比較

      另外,圖4的主觀結(jié)果對比也表明,F(xiàn)akeShield能夠生成更加清晰且精確的篡改區(qū)域分割,準(zhǔn)確捕捉邊界,而其他方法如PSCC-Net則容易產(chǎn)生模糊且過于寬泛的預(yù)測。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    唯品會雙11銷量前十品牌中有7個(gè)國貨品牌

    11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費(fèi)前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。