谷歌Deepmind發(fā)布最先進的圖像生成模型Imagen 2

2023年12月14日 11:33:50 來源：站長之家

　　12月14日消息:谷歌Deepmind宣布了他們最先進的圖像生成模型Imagen2。該模型通過參考圖片和文本生成新圖片和局部編輯的效果比較強大。

　　這一最新模型的主要特點包括改進的圖像描述理解。為了幫助創(chuàng)建更高質(zhì)量和更準確的圖像，Imagen2的訓練數(shù)據(jù)集中添加了更多描述，幫助該模型學習不同的標題風格，并更好地理解廣泛的用戶提示。

　　此外，Imagen2的數(shù)據(jù)集和模型在許多領(lǐng)域取得了改進，這些領(lǐng)域通常是文本到圖像工具所困擾的，包括渲染逼真的手部和人臉，以及保持圖像不受干擾的視覺偽影，從而實現(xiàn)更加真實的圖像生成。

　　Imagen2的擴散技術(shù)提供了高度的靈活性，使得更容易控制和調(diào)整圖像的風格。通過提供參考風格圖像并結(jié)合文本提示，可以訓練Imagen2生成遵循相同風格的新圖像。

　　該模型還支持圖像編輯功能，如“修補”和“擴展”。通過提供參考圖像和圖像蒙版，用戶可以使用一種稱為修補的技術(shù)直接在原始圖像中生成新內(nèi)容，或者使用擴展技術(shù)將原始圖像延伸到其邊界之外。

　　為了應對潛在的風險和挑戰(zhàn)，Google DeepMind在設(shè)計和開發(fā)過程中設(shè)置了嚴格的防護措施。Imagen2集成了SynthID，這是一種先進的數(shù)字水印工具，使Google Cloud客戶能夠在圖像的像素中添加不可察覺的數(shù)字水印，而不會影響圖像質(zhì)量。這種數(shù)字水印可以在應用修改，如濾鏡、裁剪或使用有損壓縮方案保存后仍然可檢測到。在發(fā)布功能給用戶之前，Google DeepMind進行了嚴格的安全測試，以最小化潛在的危害風險。安全檢查涵蓋了訓練數(shù)據(jù)、輸入提示和系統(tǒng)生成的輸出，以避免生成潛在有問題的內(nèi)容。

　　現(xiàn)在，開發(fā)人員和云客戶可以通過Google Cloud Vertex AI中的Imagen API使用這一先進的圖像生成模型。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信