為了解決人臉身份保存和可編輯性方面的問題,研究人員提供了一個獨(dú)特的免優(yōu)化框架(名為 DreamIdentity)。通過創(chuàng)建一個獨(dú)特的多詞多尺度身份編碼器 (M2ID 編碼器),以實現(xiàn)準(zhǔn)確的身份表示,并使用自增強(qiáng)的可編輯性學(xué)習(xí)方法將編輯任務(wù)移到訓(xùn)練階段。他們的方法既保持了身份的一致性,又實現(xiàn)了文本引導(dǎo)的靈活修改,有效實現(xiàn)了身份再語境化。
據(jù)了解,傳統(tǒng)的文本到圖像模型可以根據(jù)自然語言描述生成與特定人臉身份相關(guān)的不同情境的圖像。然而,現(xiàn)有的優(yōu)化無關(guān)方法在保持身份的同時保持模型的可編輯性方面存在困難。
由于基于擴(kuò)散的大規(guī)模文本到圖像 (T2I) 模型,創(chuàng)建視覺材料的學(xué)科最近發(fā)生了變化。這些 T2I 模型使制作引人入勝、富有表現(xiàn)力且以人為本的圖形變得簡單。這些模型的一個有趣的用途是,它們能夠根據(jù)日常生活中特定人的面孔(我們的家人、朋友等),使用自然語言描述生成與身份相關(guān)的各種情況。身份重新情境化挑戰(zhàn)與圖1所示的典型 T2I 任務(wù)不同,要求模型在遵守文本提示的同時保持輸入面部識別(即 ID 保留)。
為每個人臉身份個性化預(yù)訓(xùn)練的 T2I 模型是一種可行的方法。它需要學(xué)習(xí)通過增強(qiáng)單詞嵌入或微調(diào)模型參數(shù)來將特定單詞與本質(zhì)相關(guān)聯(lián)。由于每個身份的優(yōu)化,這些基于優(yōu)化的方法可能會更有效。為了避免耗時的每個身份優(yōu)化,各種免優(yōu)化方法建議直接將從預(yù)訓(xùn)練圖像編碼器(通常是 CLIP)獲得的圖像特征映射到詞嵌入中。然而,這會損害 ID 的保存。因此,這些技術(shù)存在損害原始 T2I 模型編輯技能的危險,因為它們要么需要微調(diào)預(yù)訓(xùn)練 T2I 模型的參數(shù),要么改變原始結(jié)構(gòu)以注入額外的網(wǎng)格圖像特征。
簡而言之,所有并發(fā)的免優(yōu)化工作都在努力保持身份,同時保持模型的可編輯性。他們認(rèn)為,兩個問題,即(1)錯誤的身份特征表示和(2)訓(xùn)練和測試目標(biāo)不一致,是現(xiàn)有無優(yōu)化研究中上述困難的根本原因。一方面,目前最好的 CLIP 模型在 top-1人臉識別準(zhǔn)確率上仍然比人臉識別模型差很多(80.95% vs.87.61%),這表明所使用的通用編碼器(即 CLIP)通過同時努力不足以完成身份重新情境化工作。此外,CLIP 的最后一層功能主要關(guān)注高級語義而不是精確的面部描述, 輸入面部的可編輯性受到使用普通重建目標(biāo)來學(xué)習(xí)單詞嵌入的所有并發(fā)任務(wù)的負(fù)面影響。為了解決上述身份保存和可編輯性方面的困難,他們提供了一個獨(dú)特的免優(yōu)化框架(名為 DreamIdentity),具有準(zhǔn)確的身份表示和一致的訓(xùn)練/推理目標(biāo)。更準(zhǔn)確地說,他們在 Vision Transformer 的架構(gòu)中創(chuàng)建了獨(dú)特的多字多尺度 ID 編碼器(M2ID 編碼器),以實現(xiàn)正確的識別表示。該編碼器在相當(dāng)大的人臉數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,并將多尺度特征投影到多詞嵌入中。
中國科學(xué)技術(shù)大學(xué)和字節(jié)跳動的研究人員提出了一種新穎的自我增強(qiáng)可編輯性學(xué)習(xí)方法,將編輯任務(wù)轉(zhuǎn)移到訓(xùn)練階段。該方法使用 T2I 模型通過生成名人面孔和各種目標(biāo)編輯的名人圖像來構(gòu)建自增強(qiáng)數(shù)據(jù)集。M2ID 編碼器使用此數(shù)據(jù)集進(jìn)行訓(xùn)練,以提高模型的可編輯性。他們對這項工作做出了以下貢獻(xiàn):他們認(rèn)為,由于錯誤的表示和不一致的訓(xùn)練/推理目標(biāo),現(xiàn)有的免優(yōu)化方法對于 ID 保存和高可編輯性來說是無效的。
從技術(shù)上講,(1)他們建議使用 M2ID 編碼器,這是一種具有多重嵌入投影的 ID 感知多尺度特征,用于適當(dāng)?shù)谋硎尽?2) 它們結(jié)合了自我增強(qiáng)的可編輯性學(xué)習(xí),使底層 T2I 模型能夠提供高質(zhì)量的數(shù)據(jù)集進(jìn)行編輯,以實現(xiàn)一致的訓(xùn)練/推理目標(biāo)。綜合研究證明了他們的方法的有效性,有效地實現(xiàn)了身份保留,同時允許靈活的文本引導(dǎo)修改或身份重新上下文化。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。