年輕人要的情緒價(jià)值,被這座城市承包了停更1217天!李子柒回歸,全網(wǎng)震動(dòng)!百度沈抖:AI應(yīng)用在B端率先爆發(fā)雙十一百吋巨幕電視之爭,為何98吋更受追捧更值得買?華為、OPPO、vivo、小米共同打造統(tǒng)一鏈接平臺(tái):打破壁壘,App 一鍵下載AI公司開始“卷”智能體:OpenAI計(jì)劃明年1月發(fā)布 能控制計(jì)算機(jī)并獨(dú)立執(zhí)行任務(wù)Oura CEO堅(jiān)信蘋果不會(huì)開發(fā)智能戒指,因?yàn)闀?huì)削弱Apple Watch銷量淘寶接入微信支付互聯(lián)互通 騰訊:做了很多努力 效果非常滿意vivo X200 Ultra影像細(xì)節(jié)曝光:搭載全高規(guī)格三攝三星Galaxy S25全球標(biāo)配驍龍8至尊版:或因Exynos 2500良率太低江波龍拓展全球汽車與工業(yè)存儲(chǔ)市場智能化,比亞迪到了不得不突圍的時(shí)候完美無孔屏、全面超越iPhone!努比亞Z70 Ultra定檔11月21日以高品質(zhì)助力用戶換新!海爾智家拿下雙11全網(wǎng)第一Switch 2沒等來,任天堂先搞了個(gè)音樂APP淘寶直播救不了美特斯邦威“雙11”多方搏殺,拼多多求勝邏輯在哪?汽車之家利潤大降:逆風(fēng)時(shí)代遇上保守職業(yè)經(jīng)理人中國智算建設(shè)潮背后,誰在推動(dòng)十萬卡集群閑魚無限生長
  • 首頁 > 云計(jì)算頻道 > 大模型

    耗資數(shù)百萬,六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬

    2024年10月12日 15:10:35   來源:新智元公眾號(hào)

      【新智元導(dǎo)讀】研發(fā)6年,耗資數(shù)百萬,六屆學(xué)霸接力,上交牛力團(tuán)隊(duì)首創(chuàng)的圖像合成工具箱libcom,論文、代碼、數(shù)據(jù)集全開源。團(tuán)隊(duì)歡迎各位大佬共鑄libcom,貢獻(xiàn)突出者可享冠名權(quán)。

      在AIGC 的浪潮中,對(duì)已有圖片做編輯的圖像編輯(image editing)技術(shù)受到了越來越多的關(guān)注。圖像編輯(image editing)的原子操作包括增、刪、改。

      「增」是指在圖像中添加元素,該研究方向叫做圖像合成(image composition)

      「刪」是指從圖像中擦除元素,該研究方向叫做圖像填充(image inpainting)

      「改」是指改變圖像中元素的屬性,該研究方向叫做屬性編輯(attribute manipulation)

      其余復(fù)雜的圖像編輯操作皆可轉(zhuǎn)化為「增」、 「刪」、「改」這三個(gè)原子操作的組合,通過按照一定順序執(zhí)行這些原子操作完成。

      因此,圖像合成(image composition)在圖像編輯的版圖中三分天下居其一,在虛擬現(xiàn)實(shí)、藝術(shù)創(chuàng)作、電商廣告、數(shù)據(jù)增廣等領(lǐng)域有著廣泛應(yīng)用。

      圖像合成(image composition)的通常用法是把一個(gè)前景物體插入到一張背景圖片中,得到一張合成圖。

      但是通過簡單的剪切粘貼得到的合成圖會(huì)存在諸多問題,皆可視為前景和背景之間的不一致性,包括外觀不一致性、幾何不一致性、語義不一致性。三種不一致性可進(jìn)一步分解成若干子問題(邊界、光照、陰影、放置、遮擋、視角等等)。

      為了解決這些子問題,很多子任務(wù)(圖像融合、圖像和諧化、陰影生成、物體放置等等)被相繼提出,用于解決一個(gè)或多個(gè)子問題。

      在圖像合成中,不一致性(inconsistency)、子問題(issue)、子任務(wù)(sub-task)三者之間的關(guān)系如下圖所示。

      上述這些子任務(wù)可以串行(sequential pipeline)或者并行(parallel pipeline)執(zhí)行,以解決前景和背景之間的不一致性,得到高質(zhì)量合成圖。

      串行流程和并行流程如下圖所示,綠勾和紅叉表示是否執(zhí)行該子任務(wù)。

      給定一對(duì)背景圖片和前景物體,串行流程先在背景中尋找前景物體的合理放置,通過圖像混合解決邊界不自然的問題,通過圖像和諧化解決前背景光照不和諧的問題,通過陰影生成為前景物體在背景上生成合理的陰影。而并行流程在一個(gè)模型中同時(shí)執(zhí)行多個(gè)子任務(wù),直接輸出最終的合成圖。

      并行流程也叫做生成式圖像合成,近兩年隨著擴(kuò)散模型的爆火而進(jìn)入大眾的視野。

      在這一領(lǐng)域,上海交通大學(xué)牛力團(tuán)隊(duì)從2018年底就開始從事圖像合成(image composition)領(lǐng)域的研究,從數(shù)據(jù)(10+原創(chuàng)數(shù)據(jù)集)到模型(30+原創(chuàng)模型)、論文(20+已發(fā)表論文),再到工具箱(libcom),歷時(shí)六年,耗資數(shù)百萬,由六屆學(xué)生接力完成。

      所有數(shù)據(jù)集的每張圖片都經(jīng)過2~3人檢查,以嚴(yán)格保證數(shù)據(jù)集的質(zhì)量。所有模型的代碼都經(jīng)過2~3人檢查,以確保沒有嚴(yán)重的bug(如果有嚴(yán)重的bug請(qǐng)盡快打臉)。

      2023年底,團(tuán)隊(duì)推出了盡量無需訓(xùn)練微調(diào)、對(duì)任意圖片開箱即用的圖像合成工具箱libcom,該工具箱的形式也是首創(chuàng)的,體現(xiàn)了他們對(duì)image composition領(lǐng)域的理解。

      截至2024年10月,libcom已經(jīng)下載安裝1.2萬次

      因?yàn)閳D像合成旨在融合不同的圖片元素,所以libcom的logo采用了半人馬的形象,即人和馬的融合,并添加了裝飾性的藍(lán)圈和黃圈的融合。由于藍(lán)色和黃色的過渡色是綠色,因此半人馬系上了一條綠色的腰帶。

      Libcom集成了圖像合成的十幾項(xiàng)功能,對(duì)圖像合成實(shí)現(xiàn)全方位覆蓋,每個(gè)功能選擇了一到兩個(gè)簡單有效的方法。

      經(jīng)過近一年的迭代,大多數(shù)功能的效果還湊合。并且,每一個(gè)功能都有對(duì)應(yīng)的倉庫,倉庫里有訓(xùn)練代碼。

      如果你發(fā)現(xiàn)某項(xiàng)功能在你的數(shù)據(jù)集上表現(xiàn)欠佳,很有可能是數(shù)據(jù)差異導(dǎo)致,用你收集的訓(xùn)練數(shù)據(jù)微調(diào)模型,替換掉原來的checkpoint即可。

      和libcom一同打包贈(zèng)送的還有awesome-image-composition(匯總了該領(lǐng)域的論文、代碼、數(shù)據(jù)集),在線demo(很久沒更新了,不是最新模型)、以及一篇寫了四年的survey(一年一更)。

      十二大功能全解

      接下來依次介紹libcom的十幾項(xiàng)功能,涵蓋了圖像合成的方方面面:

      1.get_composite_image

      通過剪切粘貼、alpha融合和泊松融合混合前景背景。這些是最簡單的傳統(tǒng)圖像融合方法。

      2.OPAScoreModel

      輸入合成圖和前景掩碼,判斷前景物體的放置(位置、大小)是否合理。輸出的分?jǐn)?shù)介于[0,1]之間,1表示合理,0表示不合理。

      左邊的合成圖分?jǐn)?shù)為1,右邊的合成圖分?jǐn)?shù)為0

      3.FOPAHeatMapModel

      輸入一對(duì)背景圖片和前景物體,輸出該物體按照不同尺寸放在背景圖片不同位置得到的合成圖的合理性分?jǐn)?shù)。

      假設(shè)有K個(gè)離散的前景物體尺寸,背景圖片大小為H*W, 則輸出H*W*K的熱力圖。

      熱力圖上的每個(gè)像素對(duì)應(yīng)一個(gè)放置的合理性分?jǐn)?shù),因此根據(jù)熱力圖可以獲取合理的前景物體放置框。

      單個(gè)前景物體尺寸的熱力圖以及根據(jù)熱力圖得到的前景物體放置框

      4.color_transfer

      傳統(tǒng)的顏色遷移方法,用于將背景的顏色遷移到前景,適用于簡單場景的圖像和諧化。

      合成圖和顏色遷移后的結(jié)果

      5.ImageHarmonizationModel

      輸入合成圖和前景掩碼,圖像和諧化模型調(diào)整前景的光照使其與背景和諧,輸出和諧化結(jié)果。

      6.PainterlyHarmonizationModel

      藝術(shù)圖像和諧化與圖像和諧化類似,區(qū)別在于背景是藝術(shù)圖片。

      輸入合成圖和前景掩碼,藝術(shù)圖像和諧化模型調(diào)整前景的風(fēng)格(顏色、紋理、筆觸等)使其與背景一致,輸出和諧化結(jié)果。

      7.HarmonyScoreModel

      輸入合成圖和前景掩碼,判斷前景和背景的光照是否匹配,輸出前景與背景的和諧化分?jǐn)?shù)。分?jǐn)?shù)介于[0,1]之間,1表示和諧,0表示不和諧。

      左邊的合成圖分?jǐn)?shù)為0.25,右邊的合成圖分?jǐn)?shù)為0.72

      8.InharmoniousLocalizationModel

      輸入一張圖片,輸出該圖片不和諧區(qū)域的掩碼。

      合成圖和模型預(yù)測的不和諧區(qū)域

      9.FOSScoreModel

      輸入一張合成圖,預(yù)測前景和背景在幾何和語義上的適配性分?jǐn)?shù),包括前景和背景的透視角度是否一致、前景物體的語義上下文是否合理等等。輸出的適配性分?jǐn)?shù)介于[0,1]之間,1表示適配,0表示不適配。

      10.ShadowGenerationModel

      輸入一張合成圖和前景掩碼,為前景物體在背景上生成合理的陰影。該功能不是很穩(wěn)定,通常隨機(jī)生成5張會(huì)有1~2張的陰影形狀較好。

      隨機(jī)采樣5次生成的結(jié)果

      11.ControlComModel

      輸入一對(duì)背景圖片和前景物體,把前景物體插入背景圖片指定位置(黃色邊界框),保持前景物體的姿態(tài)不變,做圖像融合或者圖像和諧化。兩者的區(qū)別在于圖像和諧化需要進(jìn)一步調(diào)整前景物體的光照使其與背景和諧。

      12.MureObjectStitchModel

      輸入一對(duì)背景圖片和前景物體(支持多張參考圖),把前景物體插入背景圖片指定位置(黃色邊界框),調(diào)整前景物體的姿態(tài)和光照,得到合理的合成圖。

      模型對(duì)于細(xì)節(jié)簡單的物體和常見物體效果較好。對(duì)于細(xì)節(jié)復(fù)雜的物體,建議用前景物體的5~10張圖片花10分鐘微調(diào)模型,細(xì)節(jié)保留能力會(huì)有大幅提升。

      同時(shí),團(tuán)隊(duì)還提供了微調(diào)模型的代碼,微調(diào)模型之后替換原來的checkpoint即可。

      未來展望

      總結(jié)來說,Libcom還有很多不足,還有很多事情要做,比如數(shù)據(jù)集擴(kuò)充、模型調(diào)優(yōu)、添加新功能、支持任意分辨率、工程優(yōu)化、推理加速、跨平臺(tái)遷移、版本升級(jí)迭代、用戶界面等等。

      團(tuán)隊(duì)表示,歡迎對(duì)圖像合成(image composition)感興趣的大佬們指導(dǎo)工作,共鑄libcom,提供資金、數(shù)據(jù)、人力、技術(shù)等方面的支持,并加入貢獻(xiàn)者名單。如果貢獻(xiàn)特別突出,可以享有冠名權(quán)(比如JackLibcom, PonyLibcom)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    唯品會(huì)雙11銷量前十品牌中有7個(gè)國貨品牌

    11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(tái)(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費(fèi)前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。