一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務實現(xiàn)盈利,退市裁員重組后終于賺錢真我14 Pro+開始提上日程:1.5K等深四微曲屏+潛望長焦穩(wěn)了消息稱本田和日產(chǎn)計劃明年6月前敲定合并協(xié)議 2026年8月成立控股公司凱迪拉克最新版OTA開啟推送,新增百度語音大模型和QQ音樂等應用中國聯(lián)通11月5G套餐用戶凈增127.8萬戶5G確定性工業(yè)基站首商用,工業(yè)互聯(lián)網(wǎng)走上新高度李飛飛團隊前瞻性研究 多模態(tài)AI模型初顯空間智能AI終于邁過這道檻!Livekit 開源模型精準識別“你是否說完”!DeepSeek開源大模型開發(fā)者之一羅福莉將加盟小米廣汽詳解旗下首款復合翼飛行汽車 GOVY AirJet:最高飛行速度可達 250km/h清華大學聯(lián)合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創(chuàng)建音效家庭能源智聯(lián)自由 海辰儲能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroESOpenAI發(fā)布o3:AI 推理能力的重大突破,得分高達87.5%亞馬遜云科技推出Amazon Q Developer新功能小象超市,摸著美團外賣出海E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent
  • 首頁 > 云計算頻道 > 大模型

    耗資數(shù)百萬,六年磨一劍!上交開源首創(chuàng)圖像合成神器libcom,下載量破萬

    2024年10月12日 15:10:35   來源:新智元公眾號

      【新智元導讀】研發(fā)6年,耗資數(shù)百萬,六屆學霸接力,上交牛力團隊首創(chuàng)的圖像合成工具箱libcom,論文、代碼、數(shù)據(jù)集全開源。團隊歡迎各位大佬共鑄libcom,貢獻突出者可享冠名權。

      在AIGC 的浪潮中,對已有圖片做編輯的圖像編輯(image editing)技術受到了越來越多的關注。圖像編輯(image editing)的原子操作包括增、刪、改。

      「增」是指在圖像中添加元素,該研究方向叫做圖像合成(image composition)

      「刪」是指從圖像中擦除元素,該研究方向叫做圖像填充(image inpainting)

      「改」是指改變圖像中元素的屬性,該研究方向叫做屬性編輯(attribute manipulation)

      其余復雜的圖像編輯操作皆可轉化為「增」、 「刪」、「改」這三個原子操作的組合,通過按照一定順序執(zhí)行這些原子操作完成。

      因此,圖像合成(image composition)在圖像編輯的版圖中三分天下居其一,在虛擬現(xiàn)實、藝術創(chuàng)作、電商廣告、數(shù)據(jù)增廣等領域有著廣泛應用。

      圖像合成(image composition)的通常用法是把一個前景物體插入到一張背景圖片中,得到一張合成圖。

      但是通過簡單的剪切粘貼得到的合成圖會存在諸多問題,皆可視為前景和背景之間的不一致性,包括外觀不一致性、幾何不一致性、語義不一致性。三種不一致性可進一步分解成若干子問題(邊界、光照、陰影、放置、遮擋、視角等等)。

      為了解決這些子問題,很多子任務(圖像融合、圖像和諧化、陰影生成、物體放置等等)被相繼提出,用于解決一個或多個子問題。

      在圖像合成中,不一致性(inconsistency)子問題(issue)、子任務(sub-task)三者之間的關系如下圖所示。

      上述這些子任務可以串行(sequential pipeline)或者并行(parallel pipeline)執(zhí)行,以解決前景和背景之間的不一致性,得到高質量合成圖。

      串行流程和并行流程如下圖所示,綠勾和紅叉表示是否執(zhí)行該子任務。

      給定一對背景圖片和前景物體,串行流程先在背景中尋找前景物體的合理放置,通過圖像混合解決邊界不自然的問題,通過圖像和諧化解決前背景光照不和諧的問題,通過陰影生成為前景物體在背景上生成合理的陰影。而并行流程在一個模型中同時執(zhí)行多個子任務,直接輸出最終的合成圖。

      并行流程也叫做生成式圖像合成,近兩年隨著擴散模型的爆火而進入大眾的視野。

      在這一領域,上海交通大學牛力團隊從2018年底就開始從事圖像合成(image composition)領域的研究,從數(shù)據(jù)(10+原創(chuàng)數(shù)據(jù)集)到模型(30+原創(chuàng)模型)、論文(20+已發(fā)表論文),再到工具箱(libcom),歷時六年,耗資數(shù)百萬,由六屆學生接力完成。

      所有數(shù)據(jù)集的每張圖片都經(jīng)過2~3人檢查,以嚴格保證數(shù)據(jù)集的質量。所有模型的代碼都經(jīng)過2~3人檢查,以確保沒有嚴重的bug(如果有嚴重的bug請盡快打臉)。

      2023年底,團隊推出了盡量無需訓練微調(diào)、對任意圖片開箱即用的圖像合成工具箱libcom,該工具箱的形式也是首創(chuàng)的,體現(xiàn)了他們對image composition領域的理解。

      截至2024年10月,libcom已經(jīng)下載安裝1.2萬次。

      因為圖像合成旨在融合不同的圖片元素,所以libcom的logo采用了半人馬的形象,即人和馬的融合,并添加了裝飾性的藍圈和黃圈的融合。由于藍色和黃色的過渡色是綠色,因此半人馬系上了一條綠色的腰帶。

      Libcom集成了圖像合成的十幾項功能,對圖像合成實現(xiàn)全方位覆蓋,每個功能選擇了一到兩個簡單有效的方法。

      經(jīng)過近一年的迭代,大多數(shù)功能的效果還湊合。并且,每一個功能都有對應的倉庫,倉庫里有訓練代碼。

      如果你發(fā)現(xiàn)某項功能在你的數(shù)據(jù)集上表現(xiàn)欠佳,很有可能是數(shù)據(jù)差異導致,用你收集的訓練數(shù)據(jù)微調(diào)模型,替換掉原來的checkpoint即可。

      和libcom一同打包贈送的還有awesome-image-composition(匯總了該領域的論文、代碼、數(shù)據(jù)集),在線demo(很久沒更新了,不是最新模型)、以及一篇寫了四年的survey(一年一更)。

      十二大功能全解

      接下來依次介紹libcom的十幾項功能,涵蓋了圖像合成的方方面面:

      1.get_composite_image

      通過剪切粘貼、alpha融合和泊松融合混合前景背景。這些是最簡單的傳統(tǒng)圖像融合方法。

      2.OPAScoreModel

      輸入合成圖和前景掩碼,判斷前景物體的放置(位置、大小)是否合理。輸出的分數(shù)介于[0,1]之間,1表示合理,0表示不合理。

      左邊的合成圖分數(shù)為1,右邊的合成圖分數(shù)為0

      3.FOPAHeatMapModel

      輸入一對背景圖片和前景物體,輸出該物體按照不同尺寸放在背景圖片不同位置得到的合成圖的合理性分數(shù)。

      假設有K個離散的前景物體尺寸,背景圖片大小為H*W, 則輸出H*W*K的熱力圖。

      熱力圖上的每個像素對應一個放置的合理性分數(shù),因此根據(jù)熱力圖可以獲取合理的前景物體放置框。

      單個前景物體尺寸的熱力圖以及根據(jù)熱力圖得到的前景物體放置框

      4.color_transfer

      傳統(tǒng)的顏色遷移方法,用于將背景的顏色遷移到前景,適用于簡單場景的圖像和諧化。

      合成圖和顏色遷移后的結果

      5.ImageHarmonizationModel

      輸入合成圖和前景掩碼,圖像和諧化模型調(diào)整前景的光照使其與背景和諧,輸出和諧化結果。

      6.PainterlyHarmonizationModel

      藝術圖像和諧化與圖像和諧化類似,區(qū)別在于背景是藝術圖片。

      輸入合成圖和前景掩碼,藝術圖像和諧化模型調(diào)整前景的風格(顏色、紋理、筆觸等)使其與背景一致,輸出和諧化結果。

      7.HarmonyScoreModel

      輸入合成圖和前景掩碼,判斷前景和背景的光照是否匹配,輸出前景與背景的和諧化分數(shù)。分數(shù)介于[0,1]之間,1表示和諧,0表示不和諧。

      左邊的合成圖分數(shù)為0.25,右邊的合成圖分數(shù)為0.72

      8.InharmoniousLocalizationModel

      輸入一張圖片,輸出該圖片不和諧區(qū)域的掩碼。

      合成圖和模型預測的不和諧區(qū)域

      9.FOSScoreModel

      輸入一張合成圖,預測前景和背景在幾何和語義上的適配性分數(shù),包括前景和背景的透視角度是否一致、前景物體的語義上下文是否合理等等。輸出的適配性分數(shù)介于[0,1]之間,1表示適配,0表示不適配。

      10.ShadowGenerationModel

      輸入一張合成圖和前景掩碼,為前景物體在背景上生成合理的陰影。該功能不是很穩(wěn)定,通常隨機生成5張會有1~2張的陰影形狀較好。

      隨機采樣5次生成的結果

      11.ControlComModel

      輸入一對背景圖片和前景物體,把前景物體插入背景圖片指定位置(黃色邊界框),保持前景物體的姿態(tài)不變,做圖像融合或者圖像和諧化。兩者的區(qū)別在于圖像和諧化需要進一步調(diào)整前景物體的光照使其與背景和諧。

      12.MureObjectStitchModel

      輸入一對背景圖片和前景物體(支持多張參考圖),把前景物體插入背景圖片指定位置(黃色邊界框),調(diào)整前景物體的姿態(tài)和光照,得到合理的合成圖。

      模型對于細節(jié)簡單的物體和常見物體效果較好。對于細節(jié)復雜的物體,建議用前景物體的5~10張圖片花10分鐘微調(diào)模型,細節(jié)保留能力會有大幅提升。

      同時,團隊還提供了微調(diào)模型的代碼,微調(diào)模型之后替換原來的checkpoint即可。

      未來展望

      總結來說,Libcom還有很多不足,還有很多事情要做,比如數(shù)據(jù)集擴充、模型調(diào)優(yōu)、添加新功能、支持任意分辨率、工程優(yōu)化、推理加速、跨平臺遷移、版本升級迭代、用戶界面等等。

      團隊表示,歡迎對圖像合成(image composition)感興趣的大佬們指導工作,共鑄libcom,提供資金、數(shù)據(jù)、人力、技術等方面的支持,并加入貢獻者名單。如果貢獻特別突出,可以享有冠名權(比如JackLibcom, PonyLibcom)。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。