吊打Midjourney！OpenAI秘密內(nèi)測新平臺(tái)

2023年08月04日 15:21:29 徐杰承 來源：51CTO

　　作者 | 徐杰承

　　“當(dāng)使用過它之后，我對(duì)Midjourney已經(jīng)再也提不起一點(diǎn)興趣了。”這句“虎狼之詞”出自一位OpenAI新圖像生成平臺(tái)的內(nèi)測用戶之口。顯然，OpenAI已經(jīng)再一次做好了掀桌子的準(zhǔn)備，而這次他們所瞄準(zhǔn)的，正是AI圖像生成領(lǐng)域。

　　根據(jù)YouTube博主MattVidPro透露，他的一位粉絲在不久前獲得了OpenAI新圖像生成平臺(tái)的內(nèi)測資格，并向他悄悄透露了大量利用新平臺(tái)生成的作品。MattVidPro也將這些內(nèi)容制作成了一期視頻節(jié)目，而他開場詞的第一句話是，“今天，讓我們一睹AI生成圖的未來!”

　　圖源：Youtube

　　1、兩大優(yōu)勢完勝M(fèi)j

　　MattVidPro在視頻中表示，據(jù)這位粉絲透露，OpenAI正在秘密測試一個(gè)全新的圖像生成平臺(tái)，該平臺(tái)很可能是此前OpenAI所發(fā)布的文生圖工具Dell-E 2的升級(jí)版。并且這次測試非常隱蔽——用戶需要在一個(gè)僅能容納400人的OpenAI獨(dú)家測試服務(wù)器中訪問該平臺(tái)。

　　在進(jìn)行了一段時(shí)間的嘗試后，這位粉絲發(fā)現(xiàn)，新平臺(tái)不僅能夠創(chuàng)建具有頭發(fā)、燈光、廣告副本等細(xì)節(jié)特征的逼真圖像，而且在生成連貫細(xì)節(jié)和遵循提示詞方面具有極強(qiáng)的能力。在許多任務(wù)的執(zhí)行效果上甚至可以吊打如今AI生成圖領(lǐng)域名氣最盛的Midjourney。

　　首先是連貫細(xì)節(jié)方面，了解AI圖像生成模型的人可能會(huì)知道，當(dāng)前絕大多數(shù)模型都無法準(zhǔn)確處理生成圖中的文字內(nèi)容。Midjourney也同樣擁有這項(xiàng)缺陷。一個(gè)來自互聯(lián)網(wǎng)的例子是：“生成紅色鉛筆，上面印有‘welcome’的文字。”Midjourney雖然完成了紅色鉛筆的生成，但文字呈現(xiàn)方面可以說一塌糊涂。

　　但顯然，OpenAI已經(jīng)找到了解決這一問題的方法，在MattVidPro所展示的圖片中，新平臺(tái)在處理相似任務(wù)時(shí)的表現(xiàn)可以說非常炸裂。無論是生成寫有博主ID的海報(bào)，還是生成《GTA5》的游戲盒子全都不在話下，并且圖像中的主體文字內(nèi)容完全沒有出錯(cuò)。

　　圖源：Youtube

　　除此之外，在面對(duì)較為復(fù)雜的提示詞時(shí)，相比于Midjourney，OpenAI新平臺(tái)所生成的圖像內(nèi)容顯然更接近提示詞的描述。這里一個(gè)典型的例子是根據(jù)以下提示生成圖像：“在一場自行車比賽中，一名粉色小丑正在與一只熊貓擊掌。自行車是由奶酪制成的，地面非常泥濘。他們在一個(gè)多霧的森林里騎車，熊貓很生氣。”

　　在Midjourney所給出的四張作品中，一只熊貓沒有騎車，而其余三只的座駕都是沒有出現(xiàn)奶酪元素的摩托而非自行車，并且四張圖片中均沒有出現(xiàn)小丑角色，熊貓的表情看起來也與生氣毫不沾邊。

　　圖源：Youtube

　　而OpenAI平臺(tái)在相同任務(wù)上的表現(xiàn)則無需多言，所生成作品包含了提示中的幾乎全部細(xì)節(jié)。

　　圖源：Youtube

　　看完以上案例，有人可能會(huì)說OpenAI新平臺(tái)生成的圖像似乎在真實(shí)度和畫面細(xì)節(jié)方面并不出彩，甚至有些依靠“Q版”圖耍小聰明的嫌疑。但這其實(shí)只是由于在提示中未規(guī)定畫面風(fēng)格的緣故。在生成寫實(shí)圖像方面，新平臺(tái)的能力也完全不亞于目前的主流文生圖工具。

　　圖源：Youtube

　　在以上的兩個(gè)案例中，我們不難看出，無論是油畫風(fēng)格圖像“公牛”的畫面質(zhì)感和筆觸細(xì)節(jié)，亦或是寫實(shí)風(fēng)格圖像“水中少女”的光效、少女面部的水漬呈現(xiàn)等，兩幅圖像的逼真度和細(xì)節(jié)處理也均達(dá)到了業(yè)內(nèi)頂尖水準(zhǔn)。

　　2、或采用全新生成模型

　　除了圖像以外，關(guān)于OpenAI正在測試的這個(gè)新圖像生成平臺(tái)，網(wǎng)上幾乎沒有出現(xiàn)其余的任何消息。但根據(jù)OpenAI于3月所發(fā)表的論文，不少專業(yè)人士推測，該平臺(tái)很可能利用了全新的“一致性模型”而非目前業(yè)內(nèi)主流的“擴(kuò)散模型”。

　　圖源：OpenAI

　　在這篇名為《Consistency Models》的論文中，OpenAI提到，一致性模型在訓(xùn)練速度上覆蓋了擴(kuò)散模型，能夠“一步生成”，能夠比擴(kuò)散模型更快實(shí)現(xiàn)簡單任務(wù)，且所用計(jì)算量要少10-2000倍。此外，一致性模型也允許“多步采樣”，以計(jì)算換取樣本質(zhì)量。因此即使沒有迭代過程，一致性模型也可以產(chǎn)生高質(zhì)量結(jié)果，并能快速適用于實(shí)時(shí)任務(wù)。

　　圖源：OpenAI

　　與擴(kuò)散模型相同，一致性模型也支持零樣本數(shù)據(jù)編輯。例如在修補(bǔ)、著色或超分辨率任務(wù)中，一致性模型可以從預(yù)先訓(xùn)練的擴(kuò)散模型中提取數(shù)據(jù)，也可以單獨(dú)進(jìn)行訓(xùn)練。根據(jù)OpenAI的說法，一致性模型能在所有非對(duì)抗性單步生成任務(wù)中勝過擴(kuò)散模型。

　　圖源：OpenAI

　　并且以上所提到的兩種訓(xùn)練方式都將“對(duì)抗訓(xùn)練”從中刪除了。這是由于對(duì)抗訓(xùn)練過程較為復(fù)雜，雖然這更易于產(chǎn)生強(qiáng)大的神經(jīng)網(wǎng)絡(luò)，但對(duì)抗訓(xùn)練的方式也會(huì)導(dǎo)致模型預(yù)測的準(zhǔn)確率下降。部分業(yè)內(nèi)人士認(rèn)為，這便是OpenAI新平臺(tái)能夠在處理連貫任務(wù)和遵循提示方面表現(xiàn)得更好的主要原因。

　　除此之外，一個(gè)沒有太多依據(jù)的猜測是，在Dall-E 2發(fā)布的幾個(gè)月前，OpenAI發(fā)表了幾篇關(guān)于擴(kuò)散模型的論文。如果從時(shí)間維度推測，新平臺(tái)則很可能利用了全新的一致性模型。當(dāng)然，以上這些也只是目前業(yè)內(nèi)的普遍猜測，在OpenAI官方發(fā)聲之前，估計(jì)我們也很難了解到更多關(guān)于該平臺(tái)的技術(shù)細(xì)節(jié)。

　　3、還沒有完全準(zhǔn)備好

　　而對(duì)于OpenAI為何要如此隱蔽的對(duì)該平臺(tái)進(jìn)行測試，根據(jù)博主MattVidPro的說法以及幾個(gè)相關(guān)的圖片案例來看，目前該平臺(tái)似乎仍未完成全部的開發(fā)工作，一些細(xì)節(jié)方面的問題依然有待進(jìn)一步完善。

　　首先便是一直以來都困擾著生成模型的“畫手”問題，雖然在大部分情況下表現(xiàn)還算不錯(cuò)，但新平臺(tái)偶爾也會(huì)在生成人物手部細(xì)節(jié)時(shí)犯錯(cuò)誤。例如在這張“打噴嚏的粉發(fā)少女”中，我們可以清晰地看到人物的手指被描繪成了六根。

　　圖源：Youtube

　　除此之外，根據(jù)粉絲的透露，目前該平臺(tái)還沒有設(shè)置任何安全限制，能夠生成包含血腥暴力、色情等敏感元素的圖像，甚至有時(shí)一些敏感圖像會(huì)在沒有提示的情況下彈出。視頻中，MattVidPro分享了一張相對(duì)委婉的生成圖像，并表示一些“有點(diǎn)出格的作品”并不方便公開展示。

　　圖源：Youtube

　　對(duì)于向來以追求極致而著稱的OpenAI來說，顯然目前該平臺(tái)的部分能力以及安全性還沒有達(dá)到他們最終所希望的水平。這也就可以解釋為什么OpenAI會(huì)選擇進(jìn)行相對(duì)隱蔽的測試行為且沒有進(jìn)行對(duì)外的公開發(fā)聲了。

　　4、贏者通吃：OpenAI的下一步

　　對(duì)于OpenAI的下一步計(jì)劃，不少網(wǎng)友也在Youtube上留下了自己的觀點(diǎn)。部分人認(rèn)為，由于GPT4目前已具有了多模態(tài)信息處理能力，OpenAI很可能會(huì)基于新平臺(tái)在下一版ChatGPT中集成強(qiáng)大的AI生成圖功能。

　　另一部分人則認(rèn)為，OpenAI也可能會(huì)基于新平臺(tái)開發(fā)全新的AI生成圖產(chǎn)品(或是Dall E-3)，與Midjourney、Stable Diffusion等產(chǎn)品競爭并瓜分剩余市場，以進(jìn)一步提升公司的盈利能力。畢竟目前ChatGPT的用戶增長速率已達(dá)到了一個(gè)階段性的瓶頸。

　　總之，雖然就目前看來，OpenAI的這個(gè)全新AI生成圖平臺(tái)仍需要進(jìn)行一些微調(diào)以及安全功能的引入，但平臺(tái)所流露出的信息已經(jīng)在業(yè)內(nèi)引起了一些積極的反響，并收獲了比現(xiàn)階段主流文生圖產(chǎn)品更高的評(píng)價(jià)。有專家預(yù)測該平臺(tái)或?qū)⒃诮衲昴甑渍綄?duì)用戶開放。

　　圖源：Youtube

　　不難看出，如今的科技巨頭們在人工智能方面的追求已不再滿足于單純的語言模型，而是將攫取的枝杈伸展到了更廣闊的領(lǐng)域。無論是OpenAI正在測試的全新AI生成圖平臺(tái)，亦或是Meta剛剛開源的文生音樂模型Audiocraft，都表明著人工智能的未來將在更豐富的模態(tài)上開花結(jié)果。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信