圖像偽造照妖鏡！北大發(fā)布多模態(tài)LLM圖像篡改檢測(cè)定位框架FakeShield

2024年10月25日 09:23:11 來(lái)源：新智元公眾號(hào)

　　隨著生成式人工智能(AIGC)的迅猛發(fā)展，圖像編輯與合成技術(shù)變得愈加成熟與普及。這一趨勢(shì)為圖像內(nèi)容創(chuàng)作帶來(lái)了便捷的同時(shí)，也顯著增加了篡改檢測(cè)的難度。

　　用戶能夠通過Photoshop、DeepFake、AIGC等工具對(duì)圖像進(jìn)行高質(zhì)量編輯，且往往不留任何痕跡。在此背景下，如何準(zhǔn)確檢測(cè)并定位篡改區(qū)域，成為了學(xué)術(shù)界與工業(yè)界的關(guān)注重點(diǎn)。

　　盡管現(xiàn)有的圖像篡改檢測(cè)與定位(IFDL)算法在網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略上取得了一定進(jìn)展，但仍存在幾個(gè)主要問題：

　　1. 大多數(shù)方法采用黑箱模型，僅輸出真實(shí)性概率，缺乏詳細(xì)的檢測(cè)解釋，導(dǎo)致用戶對(duì)結(jié)果的信任度降低。

　　2. 現(xiàn)有算法通常針對(duì)特定篡改技術(shù)，缺乏應(yīng)對(duì)多樣化篡改手段的能力，降低了實(shí)用性。

　　為了解決這些問題，如圖1所示，北京大學(xué)與華南理工大學(xué)的研究團(tuán)隊(duì)提出了一種全新的任務(wù)：可解釋的圖像偽造檢測(cè)與定位(e-IFDL)，并設(shè)計(jì)了一個(gè)新穎的多模態(tài)偽造檢測(cè)定位框架：FakeShield。

　　結(jié)合多模態(tài)大語(yǔ)言模型的視覺和語(yǔ)言理解能力，實(shí)現(xiàn)在檢測(cè)圖像真實(shí)性，生成篡改區(qū)域掩膜的同時(shí)，提供詳細(xì)解釋，進(jìn)而增強(qiáng)了檢測(cè)定位過程的透明性與泛化性。

　　圖1：(a)傳統(tǒng)IFDL方法，(b)可解釋的IFDL方法

　　為了解決現(xiàn)有IFDL方法的不足，F(xiàn)akeShield提出了以下主要貢獻(xiàn)：

　　1. 提出了首個(gè)多模態(tài)大模型框架用于圖像篡改檢測(cè)與定位，不僅實(shí)現(xiàn)了檢測(cè)與定位過程的解耦，還提供了合理的判斷依據(jù)，解決了現(xiàn)有方法的黑箱問題。

　　2. 利用GPT-4o豐富現(xiàn)有IFDL數(shù)據(jù)集，構(gòu)建了多模態(tài)篡改描述數(shù)據(jù)集(MMTD-Set)，通過關(guān)注不同篡改特征，生成「圖像-掩膜-描述」三元組，提高了模型的分析能力。

　　3. 設(shè)計(jì)了基于領(lǐng)域標(biāo)簽引導(dǎo)的解釋性篡改檢測(cè)模塊(DTE-FDM)，在單一模型中檢測(cè)多種篡改類型，緩解了數(shù)據(jù)域沖突問題。同時(shí)，通過多模態(tài)篡改定位模塊(MFLM)，對(duì)齊視覺和語(yǔ)言特征，實(shí)現(xiàn)精準(zhǔn)的篡改區(qū)域定位。

　　基于上述創(chuàng)新，F(xiàn)akeShield不僅提升了篡改檢測(cè)定位的準(zhǔn)確性和解釋性，還顯著增強(qiáng)了模型的適應(yīng)性和實(shí)用性，為圖像篡改檢測(cè)領(lǐng)域提供了一種全面而高效的解決方案。

　　MMTD-Set數(shù)據(jù)集

　　如圖2所示，我們根據(jù)篡改方法，將篡改圖片分為PhotoShop、DeepFake、AIGC-Editing三個(gè)數(shù)據(jù)域�；诂F(xiàn)有的IFDL數(shù)據(jù)集，我們利用GPT-4o生成對(duì)于篡改圖像的分析與描述，構(gòu)建「圖像-掩膜-描述」三元組，以支持模型的多模態(tài)訓(xùn)練。另外，針對(duì)不同篡改類型，我們?cè)O(shè)計(jì)了特定的描述提示，引導(dǎo)GPT關(guān)注不同的像素偽影和語(yǔ)義錯(cuò)誤。

圖2：MMTD-Set數(shù)據(jù)集構(gòu)建過程

　　在MMTD-Set的構(gòu)建過程中，prompt設(shè)計(jì)是關(guān)鍵環(huán)節(jié)，旨在確保GPT-4o能準(zhǔn)確生成與篡改圖像相關(guān)的高質(zhì)量描述。在輸入編輯后的圖像及其二值掩膜時(shí)，prompt的設(shè)計(jì)圍繞兩個(gè)主要方面展開：篡改區(qū)域的定位和可見細(xì)節(jié)的捕捉。

　　在定位描述中，GPT-4o需要對(duì)篡改區(qū)域的絕對(duì)位置和相對(duì)位置進(jìn)行清晰表達(dá)。絕對(duì)位置指篡改區(qū)域在整個(gè)圖像中的位置，如「圖像的左上角」或「靠近圖像下半部分」。相對(duì)位置則要求描述篡改區(qū)域與其他物體之間的關(guān)系，如「在桌面上方」或「靠近人群」。這種雙重描述的設(shè)計(jì)可以幫助模型更準(zhǔn)確地感知篡改區(qū)域在圖像中的位置，確保輸出的掩膜與實(shí)際篡改區(qū)域一致。

　　在可見細(xì)節(jié)的捕捉上，prompt重點(diǎn)關(guān)注多種視覺異常，這些異常反映了篡改過程中可能留下的偽影和邏輯錯(cuò)誤。

　　對(duì)于Photoshop篡改，prompt重點(diǎn)關(guān)注像素級(jí)偽影和不自然的邊緣，要求模型檢查光照一致性、像素模糊和分辨率變化，同時(shí)判斷是否違反物理規(guī)律，如缺失的陰影或透視關(guān)系不合理。在DeepFake數(shù)據(jù)中，prompt強(qiáng)調(diào)面部細(xì)節(jié)和語(yǔ)義邏輯，要求模型注意皮膚紋理的連貫性、表情的自然性以及光影的匹配，留意面部對(duì)稱性和眼睛反射的異常。

　　對(duì)于AIGC編輯，prompt聚焦于文字生成和視覺邏輯，要求分析文字拼寫是否正確、排列是否合理，并判斷場(chǎng)景中光影和對(duì)象位置的合理性。這種針對(duì)不同篡改類型的prompt設(shè)計(jì)確保了FakeShield在檢測(cè)與解釋上的高效性和準(zhǔn)確性。

　　FakeShield框架

　　如圖3所示，該框架包括域標(biāo)簽引導(dǎo)的可解釋偽造檢測(cè)模塊(Domain Tag-guided Explainable Forgery Detection Module，DTE-FDM)和多模態(tài)偽造定位模塊(Multi-modal Forgery Localization Module，MFLM)兩個(gè)關(guān)鍵部分。

　　DTE-FDM負(fù)責(zé)圖像偽造檢測(cè)與檢測(cè)結(jié)果分析，利用數(shù)據(jù)域標(biāo)簽(domain tag)彌合不同偽造類型數(shù)據(jù)之間的數(shù)據(jù)域沖突，引導(dǎo)多模態(tài)大語(yǔ)言模型生成檢測(cè)結(jié)果及判定依據(jù)。MFLM則使用DTE-FDM輸出的對(duì)于篡改區(qū)域的描述作為視覺分割模型的Prompt，引導(dǎo)其精確定位篡改區(qū)域。

圖3：FakeShield框架圖

　　Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)

　　DTE-FDM模塊負(fù)責(zé)圖像偽造檢測(cè)與檢測(cè)結(jié)果的分析，通過生成數(shù)據(jù)域標(biāo)簽(domain tag)來(lái)緩解不同偽造類型數(shù)據(jù)(如Photoshop編輯、DeepFake、AIGC編輯)之間的數(shù)據(jù)域沖突。這些標(biāo)簽引導(dǎo)多模態(tài)大語(yǔ)言模型(LLM)聚焦于各類型篡改的特征，實(shí)現(xiàn)針對(duì)性檢測(cè)與解釋。

　　在檢測(cè)過程中，輸入圖像I_ori通過數(shù)據(jù)域標(biāo)簽生成器G_dt分配特定標(biāo)簽T_tag，表明該圖像的偽造類型。接著，圖像經(jīng)過編碼器F_enc和線性投影層F_proj轉(zhuǎn)化為特征向量T_img。

　　這些圖像特征與指令文本T_ins一并輸入LLM，生成檢測(cè)結(jié)果O_det，包括是否篡改、具體的篡改區(qū)域描述以及解釋性分析。

　　具體過程如下：

　　DTE-FDM不僅判斷圖像的真實(shí)性，還根據(jù)不同偽造類型生成詳細(xì)的判定依據(jù)，包括光照一致性、邊緣偽影、分辨率差異等。這種設(shè)計(jì)確保模型能夠應(yīng)對(duì)多樣化的偽造場(chǎng)景，增強(qiáng)了檢測(cè)的準(zhǔn)確性和解釋性，使FakeShield在應(yīng)對(duì)復(fù)雜篡改任務(wù)時(shí)具有更強(qiáng)的泛化能力與實(shí)用性。

　　Multi-modal Forgery Localization Module(MFLM)

　　MFLM模塊負(fù)責(zé)精準(zhǔn)定位圖像中的篡改區(qū)域，通過多模態(tài)特征對(duì)齊的方式將文本和視覺信息融合，從而生成準(zhǔn)確的篡改掩膜。MFLM的設(shè)計(jì)旨在解決僅依賴單一模態(tài)信息所帶來(lái)的定位不準(zhǔn)確問題，增強(qiáng)對(duì)復(fù)雜篡改區(qū)域的識(shí)別能力。

　　在MFLM中，輸入的圖像I_ori經(jīng)過Tamper Comprehension Module (TCM) 編碼，將圖像特征與解釋性文本O_det進(jìn)行對(duì)齊。對(duì)齊后的嵌入表示通過多層感知機(jī)(MLP)投影為特殊的令牌嵌入用于指導(dǎo)分割模型生成篡改區(qū)域掩膜，用于指導(dǎo)分割模型生成篡改區(qū)域掩膜M_loc。

　　整個(gè)過程如下：

　　其中，S_enc和S_dec分別為圖像的編碼器與解碼器，Extract(⋅)為提取嵌入的操作，通過上述步驟，MFLM利用文本描述和圖像特征的對(duì)齊生成準(zhǔn)確的二值掩膜。

　　此外，MFLM使用了LoRA微調(diào)技術(shù)，對(duì)模型進(jìn)行輕量化優(yōu)化，提高了處理效率并降低了計(jì)算成本。與單一模態(tài)分割方法相比，這種多模態(tài)交互的設(shè)計(jì)使得MFLM能夠應(yīng)對(duì)更加復(fù)雜的篡改場(chǎng)景，如光照不一致、透視錯(cuò)誤和對(duì)象拼接，從而顯著提升篡改區(qū)域的定位準(zhǔn)確性。

　　實(shí)驗(yàn)結(jié)果

　　我們對(duì)FakeShield與多種IFDL方法和多模態(tài)大語(yǔ)言模型(MLLM)在檢測(cè)、解釋和定位方面的性能進(jìn)行了全面對(duì)比。為了確保結(jié)果的公平性，所有IFDL方法均在與FakeShield相同的數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試。

　　這一比較覆蓋了Photoshop、DeepFake以及AIGC編輯等多種篡改場(chǎng)景，全面評(píng)估了各模型在多模態(tài)信息融合和復(fù)雜篡改檢測(cè)中的表現(xiàn)。

　　檢測(cè)性能對(duì)比

　　我們與MVSS-Net，CAT-Net等其他先進(jìn)的IFDL方法進(jìn)行了檢測(cè)性能的對(duì)比，結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明，F(xiàn)akeShield在Photoshop、DeepFake和AIGC編輯等數(shù)據(jù)集上的檢測(cè)準(zhǔn)確率(ACC)和F1分?jǐn)?shù)均顯著優(yōu)于其他方法。通過引入域標(biāo)簽引導(dǎo)策略(domain-tag guidance)，F(xiàn)akeShield能夠有效處理多種篡改類型，增強(qiáng)跨領(lǐng)域的泛化能力。

表1：FakeShield與主流IFDL方法的定位性能比較

　　解釋性能對(duì)比

　　我們通過與預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(M-LLMs)在Photoshop、DeepFake和AIGC編輯數(shù)據(jù)集上的表現(xiàn)進(jìn)行對(duì)比，評(píng)估了FakeShield的解釋能力，結(jié)果如表2所示。

　　我們采用余弦語(yǔ)義相似度(CSS)作為衡量指標(biāo)，F(xiàn)akeShield在各項(xiàng)測(cè)試中均取得了最高分?jǐn)?shù)，展現(xiàn)了其生成準(zhǔn)確且詳細(xì)篡改區(qū)域描述的能力。這表明，F(xiàn)akeShield能夠在復(fù)雜的篡改場(chǎng)景中生成與真實(shí)情況高度一致的解釋性描述，大幅提升了模型在檢測(cè)過程中的可解釋性與透明度。

表2：FakeShield與主流通用MLLM方法的解釋性能比較

　　定位性能對(duì)比

　　我們通過與其他先進(jìn)的IFDL方法在Photoshop和AIGC編輯等數(shù)據(jù)集上的表現(xiàn)進(jìn)行對(duì)比，評(píng)估了FakeShield在篡改區(qū)域定位方面的能力，結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明，F(xiàn)akeShield在大多數(shù)測(cè)試集中均取得了最高的IoU和F1分?jǐn)?shù)。

表3：FakeShield與主流IFDL方法的定位性能比較