Google AI 提出了擴(kuò)散模型中推理時(shí)間縮放的基本框架

2025年01月20日 15:43:46 來源：AIbase基地

　　來自紐約大學(xué)、麻省理工學(xué)院和谷歌的研究團(tuán)隊(duì)近日提出了一個(gè)創(chuàng)新框架，旨在解決擴(kuò)散模型在推理時(shí)間擴(kuò)展方面的瓶頸問題。這一突破性研究超越了傳統(tǒng)簡單增加去噪步驟的方法，為提升生成模型性能開辟了新途徑。

　　該框架主要從兩個(gè)維度展開:一是利用驗(yàn)證器提供反饋，二是實(shí)施算法以發(fā)現(xiàn)更優(yōu)的噪聲候選。研究團(tuán)隊(duì)以256×256分辨率的預(yù)訓(xùn)練SiT-XL模型為基礎(chǔ)，在保持250個(gè)固定去噪步驟的同時(shí)，創(chuàng)新性地引入了專用于搜索操作的額外計(jì)算資源。

　　在驗(yàn)證系統(tǒng)方面，研究采用了兩個(gè)Oracle Verifier:Inception Score (IS)和Fréchet Inception Distance (FID)。IS基于預(yù)訓(xùn)練的InceptionV3模型選擇最高分類概率，而FID則致力于最小化與預(yù)先計(jì)算的ImageNet Inception特征統(tǒng)計(jì)之間的差異。

　　實(shí)驗(yàn)結(jié)果顯示，該框架在多個(gè)基準(zhǔn)測試中表現(xiàn)出色。在DrawBench測試中，LLM Grader評估證實(shí)了搜索驗(yàn)證方法能持續(xù)提升樣本質(zhì)量。特別是ImageReward和Verifier Ensemble在各項(xiàng)指標(biāo)上都取得了顯著進(jìn)步，這歸功于它們精確的評估能力和與人類偏好的高度一致性。

　　這項(xiàng)研究不僅證實(shí)了基于搜索的計(jì)算擴(kuò)展方法的有效性，也揭示了不同驗(yàn)證器的固有偏差，為未來開發(fā)更專業(yè)化的視覺生成任務(wù)驗(yàn)證系統(tǒng)指明了方向。這一發(fā)現(xiàn)對于提升AI生成模型的整體性能具有重要意義。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信