研究人員提出AI免優(yōu)化框架DreamIdentity 保持身份一致且可編輯

2023年07月20日 11:18:05 來源：站長之家

　　為了解決人臉身份保存和可編輯性方面的問題，研究人員提供了一個獨(dú)特的免優(yōu)化框架(名為 DreamIdentity)。通過創(chuàng)建一個獨(dú)特的多詞多尺度身份編碼器 (M2ID 編碼器)，以實現(xiàn)準(zhǔn)確的身份表示，并使用自增強(qiáng)的可編輯性學(xué)習(xí)方法將編輯任務(wù)移到訓(xùn)練階段。他們的方法既保持了身份的一致性，又實現(xiàn)了文本引導(dǎo)的靈活修改，有效實現(xiàn)了身份再語境化。

　　據(jù)了解，傳統(tǒng)的文本到圖像模型可以根據(jù)自然語言描述生成與特定人臉身份相關(guān)的不同情境的圖像。然而，現(xiàn)有的優(yōu)化無關(guān)方法在保持身份的同時保持模型的可編輯性方面存在困難。

　　由于基于擴(kuò)散的大規(guī)模文本到圖像 (T2I) 模型，創(chuàng)建視覺材料的學(xué)科最近發(fā)生了變化。這些 T2I 模型使制作引人入勝、富有表現(xiàn)力且以人為本的圖形變得簡單。這些模型的一個有趣的用途是，它們能夠根據(jù)日常生活中特定人的面孔(我們的家人、朋友等)，使用自然語言描述生成與身份相關(guān)的各種情況。身份重新情境化挑戰(zhàn)與圖1所示的典型 T2I 任務(wù)不同，要求模型在遵守文本提示的同時保持輸入面部識別(即 ID 保留)。

　　為每個人臉身份個性化預(yù)訓(xùn)練的 T2I 模型是一種可行的方法。它需要學(xué)習(xí)通過增強(qiáng)單詞嵌入或微調(diào)模型參數(shù)來將特定單詞與本質(zhì)相關(guān)聯(lián)。由于每個身份的優(yōu)化，這些基于優(yōu)化的方法可能會更有效。為了避免耗時的每個身份優(yōu)化，各種免優(yōu)化方法建議直接將從預(yù)訓(xùn)練圖像編碼器(通常是 CLIP)獲得的圖像特征映射到詞嵌入中。然而，這會損害 ID 的保存。因此，這些技術(shù)存在損害原始 T2I 模型編輯技能的危險，因為它們要么需要微調(diào)預(yù)訓(xùn)練 T2I 模型的參數(shù)，要么改變原始結(jié)構(gòu)以注入額外的網(wǎng)格圖像特征。

　　簡而言之，所有并發(fā)的免優(yōu)化工作都在努力保持身份，同時保持模型的可編輯性。他們認(rèn)為，兩個問題，即(1)錯誤的身份特征表示和(2)訓(xùn)練和測試目標(biāo)不一致，是現(xiàn)有無優(yōu)化研究中上述困難的根本原因。一方面，目前最好的 CLIP 模型在 top-1人臉識別準(zhǔn)確率上仍然比人臉識別模型差很多(80.95% vs.87.61%)，這表明所使用的通用編碼器(即 CLIP)通過同時努力不足以完成身份重新情境化工作。此外，CLIP 的最后一層功能主要關(guān)注高級語義而不是精確的面部描述，輸入面部的可編輯性受到使用普通重建目標(biāo)來學(xué)習(xí)單詞嵌入的所有并發(fā)任務(wù)的負(fù)面影響。為了解決上述身份保存和可編輯性方面的困難，他們提供了一個獨(dú)特的免優(yōu)化框架(名為 DreamIdentity)，具有準(zhǔn)確的身份表示和一致的訓(xùn)練/推理目標(biāo)。更準(zhǔn)確地說，他們在 Vision Transformer 的架構(gòu)中創(chuàng)建了獨(dú)特的多字多尺度 ID 編碼器(M2ID 編碼器)，以實現(xiàn)正確的識別表示。該編碼器在相當(dāng)大的人臉數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練，并將多尺度特征投影到多詞嵌入中。

　　中國科學(xué)技術(shù)大學(xué)和字節(jié)跳動的研究人員提出了一種新穎的自我增強(qiáng)可編輯性學(xué)習(xí)方法，將編輯任務(wù)轉(zhuǎn)移到訓(xùn)練階段。該方法使用 T2I 模型通過生成名人面孔和各種目標(biāo)編輯的名人圖像來構(gòu)建自增強(qiáng)數(shù)據(jù)集。M2ID 編碼器使用此數(shù)據(jù)集進(jìn)行訓(xùn)練，以提高模型的可編輯性。他們對這項工作做出了以下貢獻(xiàn):他們認(rèn)為，由于錯誤的表示和不一致的訓(xùn)練/推理目標(biāo)，現(xiàn)有的免優(yōu)化方法對于 ID 保存和高可編輯性來說是無效的。

　　從技術(shù)上講，(1)他們建議使用 M2ID 編碼器，這是一種具有多重嵌入投影的 ID 感知多尺度特征，用于適當(dāng)?shù)谋硎尽?2) 它們結(jié)合了自我增強(qiáng)的可編輯性學(xué)習(xí)，使底層 T2I 模型能夠提供高質(zhì)量的數(shù)據(jù)集進(jìn)行編輯，以實現(xiàn)一致的訓(xùn)練/推理目標(biāo)。綜合研究證明了他們的方法的有效性，有效地實現(xiàn)了身份保留，同時允許靈活的文本引導(dǎo)修改或身份重新上下文化。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信