下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風(fēng)機(jī)品質(zhì)檢測結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機(jī)、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補(bǔ)期間電視迎來換機(jī)潮,最暢銷MiniLED品牌花落誰家?美團(tuán)旗下微信社群團(tuán)購業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁 > 云計算頻道 > 大模型

    研究人員提出AI免優(yōu)化框架DreamIdentity 保持身份一致且可編輯

    2023年07月20日 11:18:05   來源:站長之家

      為了解決人臉身份保存和可編輯性方面的問題,研究人員提供了一個獨(dú)特的免優(yōu)化框架(名為 DreamIdentity)。通過創(chuàng)建一個獨(dú)特的多詞多尺度身份編碼器 (M2ID 編碼器),以實現(xiàn)準(zhǔn)確的身份表示,并使用自增強(qiáng)的可編輯性學(xué)習(xí)方法將編輯任務(wù)移到訓(xùn)練階段。他們的方法既保持了身份的一致性,又實現(xiàn)了文本引導(dǎo)的靈活修改,有效實現(xiàn)了身份再語境化。

      據(jù)了解,傳統(tǒng)的文本到圖像模型可以根據(jù)自然語言描述生成與特定人臉身份相關(guān)的不同情境的圖像。然而,現(xiàn)有的優(yōu)化無關(guān)方法在保持身份的同時保持模型的可編輯性方面存在困難。

      由于基于擴(kuò)散的大規(guī)模文本到圖像 (T2I) 模型,創(chuàng)建視覺材料的學(xué)科最近發(fā)生了變化。這些 T2I 模型使制作引人入勝、富有表現(xiàn)力且以人為本的圖形變得簡單。這些模型的一個有趣的用途是,它們能夠根據(jù)日常生活中特定人的面孔(我們的家人、朋友等),使用自然語言描述生成與身份相關(guān)的各種情況。身份重新情境化挑戰(zhàn)與圖1所示的典型 T2I 任務(wù)不同,要求模型在遵守文本提示的同時保持輸入面部識別(即 ID 保留)。

      為每個人臉身份個性化預(yù)訓(xùn)練的 T2I 模型是一種可行的方法。它需要學(xué)習(xí)通過增強(qiáng)單詞嵌入或微調(diào)模型參數(shù)來將特定單詞與本質(zhì)相關(guān)聯(lián)。由于每個身份的優(yōu)化,這些基于優(yōu)化的方法可能會更有效。為了避免耗時的每個身份優(yōu)化,各種免優(yōu)化方法建議直接將從預(yù)訓(xùn)練圖像編碼器(通常是 CLIP)獲得的圖像特征映射到詞嵌入中。然而,這會損害 ID 的保存。因此,這些技術(shù)存在損害原始 T2I 模型編輯技能的危險,因為它們要么需要微調(diào)預(yù)訓(xùn)練 T2I 模型的參數(shù),要么改變原始結(jié)構(gòu)以注入額外的網(wǎng)格圖像特征。

      簡而言之,所有并發(fā)的免優(yōu)化工作都在努力保持身份,同時保持模型的可編輯性。他們認(rèn)為,兩個問題,即(1)錯誤的身份特征表示和(2)訓(xùn)練和測試目標(biāo)不一致,是現(xiàn)有無優(yōu)化研究中上述困難的根本原因。一方面,目前最好的 CLIP 模型在 top-1人臉識別準(zhǔn)確率上仍然比人臉識別模型差很多(80.95% vs.87.61%),這表明所使用的通用編碼器(即 CLIP)通過同時努力不足以完成身份重新情境化工作。此外,CLIP 的最后一層功能主要關(guān)注高級語義而不是精確的面部描述, 輸入面部的可編輯性受到使用普通重建目標(biāo)來學(xué)習(xí)單詞嵌入的所有并發(fā)任務(wù)的負(fù)面影響。為了解決上述身份保存和可編輯性方面的困難,他們提供了一個獨(dú)特的免優(yōu)化框架(名為 DreamIdentity),具有準(zhǔn)確的身份表示和一致的訓(xùn)練/推理目標(biāo)。更準(zhǔn)確地說,他們在 Vision Transformer 的架構(gòu)中創(chuàng)建了獨(dú)特的多字多尺度 ID 編碼器(M2ID 編碼器),以實現(xiàn)正確的識別表示。該編碼器在相當(dāng)大的人臉數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,并將多尺度特征投影到多詞嵌入中。

      中國科學(xué)技術(shù)大學(xué)和字節(jié)跳動的研究人員提出了一種新穎的自我增強(qiáng)可編輯性學(xué)習(xí)方法,將編輯任務(wù)轉(zhuǎn)移到訓(xùn)練階段。該方法使用 T2I 模型通過生成名人面孔和各種目標(biāo)編輯的名人圖像來構(gòu)建自增強(qiáng)數(shù)據(jù)集。M2ID 編碼器使用此數(shù)據(jù)集進(jìn)行訓(xùn)練,以提高模型的可編輯性。他們對這項工作做出了以下貢獻(xiàn):他們認(rèn)為,由于錯誤的表示和不一致的訓(xùn)練/推理目標(biāo),現(xiàn)有的免優(yōu)化方法對于 ID 保存和高可編輯性來說是無效的。

      從技術(shù)上講,(1)他們建議使用 M2ID 編碼器,這是一種具有多重嵌入投影的 ID 感知多尺度特征,用于適當(dāng)?shù)谋硎尽?2) 它們結(jié)合了自我增強(qiáng)的可編輯性學(xué)習(xí),使底層 T2I 模型能夠提供高質(zhì)量的數(shù)據(jù)集進(jìn)行編輯,以實現(xiàn)一致的訓(xùn)練/推理目標(biāo)。綜合研究證明了他們的方法的有效性,有效地實現(xiàn)了身份保留,同時允許靈活的文本引導(dǎo)修改或身份重新上下文化。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。