魔改Stable Diffusion，開源創(chuàng)新“單目深度估計”模型

2024年01月02日 10:14:54 來源：AIGC開放社區(qū)公眾號

　　單目深度估計一直是計算機視覺領(lǐng)域的難點。僅憑一張 RGB 圖像，想要還原出場景的三維結(jié)構(gòu)，在幾何結(jié)構(gòu)上非常不確定，必須依賴復(fù)雜的場景理解能力。

　　即便使用更強大的深度學(xué)習(xí)模型來實現(xiàn)，也面臨算力需求高、圖像數(shù)據(jù)注釋量大、泛化能力弱等缺點。

　　為了解決這些難題，蘇黎世聯(lián)邦理工學(xué)院的研究人員開發(fā)了Marigold模型。Marigold不需要從零開始訓(xùn)練，而是在Stable Diffusion(著名開源文生圖模型)的基礎(chǔ)上進行微調(diào)，只需要使用合成數(shù)據(jù)微調(diào)了中間的去噪網(wǎng)絡(luò)，其他模塊例如，編碼/解碼結(jié)構(gòu)均保持原樣，極大降低了訓(xùn)練成本。

　　實驗數(shù)據(jù)顯示，盡管Marigold從未直接學(xué)習(xí)過真實的深度信息，但在真實場景的測試中，其性能卻超越了其他專門訓(xùn)練過的模型，并且遷移、兼容性非常強。

　　Marigold的核心技術(shù)思路是，利用Stable Diffusion模型所捕獲的豐富先驗知識，來提升深度估計的泛化能力和性能。

　　簡單來說，就是把Stable Diffusion當(dāng)成一個圖片查詢數(shù)據(jù)庫，只修改其去噪模塊，就變成了可實現(xiàn)單目深度估計的全新模型。

　　Marigold的關(guān)鍵點在于保持預(yù)訓(xùn)練擴散模型的潛在空間，只對去噪U-Net進行修改和微調(diào)。

　　這種方法非常高效，無需實際深度圖像的訓(xùn)練數(shù)據(jù)，就能在多個真實數(shù)據(jù)集上取得出色的性能表現(xiàn)。

　　Marigold提供了一個簡單而資源高效的微調(diào)協(xié)議，將預(yù)訓(xùn)練的擴散生成模型轉(zhuǎn)化為圖像條件的深度估計器，成為了一種功能強大的單目深度估計模塊。

　　Marigold通過使用合成的RGB-D數(shù)據(jù)以及在一塊消費級顯卡上只訓(xùn)練了幾天，將Stable Diffusion轉(zhuǎn)化為Marigold模型。主要流程如下:

　　去噪U-Net

　　研究人員主要通過修改和微調(diào)Stable Diffusion模型的去噪U-Net模塊，來實現(xiàn)深度估計。去噪U-Net是一個編碼器-解碼器結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，用于從輸入圖像中學(xué)習(xí)去除噪聲的表示。

　　在Marigold模型中，研究人員保持了擴散模型的潛空間不變，只對去噪U-Net模塊進行微調(diào)，以適應(yīng)深度估計任務(wù)。

　　合成數(shù)據(jù)訓(xùn)練

　　為了微調(diào)Marigold模型，研究人員使用了合成的RGB-D訓(xùn)練數(shù)據(jù)，對模型進行訓(xùn)練。合成數(shù)據(jù)是通過在虛擬環(huán)境中，渲染圖像并生成對應(yīng)的深度圖來創(chuàng)建的。

　　通過使用合成數(shù)據(jù)進行訓(xùn)練，Marigold可以學(xué)習(xí)到廣泛的場景和物體形狀，從而提高其在未見過數(shù)據(jù)集上的泛化能力。

　　仿射不變深度估計

　　Marigold使用了一種仿射不變的深度估計方法，能夠估計圖像中每個像素的深度值，而不受全局偏移和尺度的影響。

　　這種仿射不變性對于在不同場景和尺度下進行深度估計非常重要。通過估計仿射不變的深度，Marigold可以消除由于相機內(nèi)參的不確定性，而引入的深度估計誤差。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

魔改Stable Diffusion，開源創(chuàng)新“單目深度估計”模型

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

魔改Stable Diffusion，開源創(chuàng)新“單目深度估計”模型

擴展閱讀

魔改Stable Diffusion，開源創(chuàng)新“單目深度估計”模型