宏景智駕完成數(shù)億元C輪融資植物生長(zhǎng)好幫手:廣明源金線蓮組培燈照亮生長(zhǎng)每一步ROG純白系列DIY好物:簡(jiǎn)約不失高雅,買它準(zhǔn)沒錯(cuò)!穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認(rèn)證并投入市場(chǎng)安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎(jiǎng)電動(dòng)自行車強(qiáng)制性“國(guó)標(biāo)”再修訂,綠源電動(dòng)車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對(duì)承壓的小家電市場(chǎng),小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營(yíng)收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機(jī)僅有iPad大小2024年冷年空調(diào)市場(chǎng)總結(jié):規(guī)模下探,結(jié)構(gòu)降級(jí),空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機(jī)型蓄勢(shì)待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充
  • 首頁 > 云計(jì)算頻道 > 大模型

    吊打Midjourney!OpenAI秘密內(nèi)測(cè)新平臺(tái)

    2023年08月04日 15:21:29   來源:51CTO

      作者 | 徐杰承

      “當(dāng)使用過它之后,我對(duì)Midjourney已經(jīng)再也提不起一點(diǎn)興趣了。”這句“虎狼之詞”出自一位OpenAI新圖像生成平臺(tái)的內(nèi)測(cè)用戶之口。顯然,OpenAI已經(jīng)再一次做好了掀桌子的準(zhǔn)備,而這次他們所瞄準(zhǔn)的,正是AI圖像生成領(lǐng)域。

      根據(jù)YouTube博主MattVidPro透露,他的一位粉絲在不久前獲得了OpenAI新圖像生成平臺(tái)的內(nèi)測(cè)資格,并向他悄悄透露了大量利用新平臺(tái)生成的作品。MattVidPro也將這些內(nèi)容制作成了一期視頻節(jié)目,而他開場(chǎng)詞的第一句話是,“今天,讓我們一睹AI生成圖的未來!”

      圖源:Youtube

      1、兩大優(yōu)勢(shì)完勝M(fèi)j

      MattVidPro在視頻中表示,據(jù)這位粉絲透露,OpenAI正在秘密測(cè)試一個(gè)全新的圖像生成平臺(tái),該平臺(tái)很可能是此前OpenAI所發(fā)布的文生圖工具Dell-E 2的升級(jí)版。并且這次測(cè)試非常隱蔽——用戶需要在一個(gè)僅能容納400人的OpenAI獨(dú)家測(cè)試服務(wù)器中訪問該平臺(tái)。

      在進(jìn)行了一段時(shí)間的嘗試后,這位粉絲發(fā)現(xiàn),新平臺(tái)不僅能夠創(chuàng)建具有頭發(fā)、燈光、廣告副本等細(xì)節(jié)特征的逼真圖像,而且在生成連貫細(xì)節(jié)和遵循提示詞方面具有極強(qiáng)的能力。在許多任務(wù)的執(zhí)行效果上甚至可以吊打如今AI生成圖領(lǐng)域名氣最盛的Midjourney。

      首先是連貫細(xì)節(jié)方面,了解AI圖像生成模型的人可能會(huì)知道,當(dāng)前絕大多數(shù)模型都無法準(zhǔn)確處理生成圖中的文字內(nèi)容。Midjourney也同樣擁有這項(xiàng)缺陷。一個(gè)來自互聯(lián)網(wǎng)的例子是:“生成紅色鉛筆,上面印有‘welcome’的文字。”Midjourney雖然完成了紅色鉛筆的生成,但文字呈現(xiàn)方面可以說一塌糊涂。

      但顯然,OpenAI已經(jīng)找到了解決這一問題的方法,在MattVidPro所展示的圖片中,新平臺(tái)在處理相似任務(wù)時(shí)的表現(xiàn)可以說非常炸裂。無論是生成寫有博主ID的海報(bào),還是生成《GTA5》的游戲盒子全都不在話下,并且圖像中的主體文字內(nèi)容完全沒有出錯(cuò)。

      圖源:Youtube

      除此之外,在面對(duì)較為復(fù)雜的提示詞時(shí),相比于Midjourney,OpenAI新平臺(tái)所生成的圖像內(nèi)容顯然更接近提示詞的描述。這里一個(gè)典型的例子是根據(jù)以下提示生成圖像:“在一場(chǎng)自行車比賽中,一名粉色小丑正在與一只熊貓擊掌。自行車是由奶酪制成的,地面非常泥濘。他們?cè)谝粋(gè)多霧的森林里騎車,熊貓很生氣。”

      在Midjourney所給出的四張作品中,一只熊貓沒有騎車,而其余三只的座駕都是沒有出現(xiàn)奶酪元素的摩托而非自行車,并且四張圖片中均沒有出現(xiàn)小丑角色,熊貓的表情看起來也與生氣毫不沾邊。

      圖源:Youtube

      而OpenAI平臺(tái)在相同任務(wù)上的表現(xiàn)則無需多言,所生成作品包含了提示中的幾乎全部細(xì)節(jié)。

      圖源:Youtube

      看完以上案例,有人可能會(huì)說OpenAI新平臺(tái)生成的圖像似乎在真實(shí)度和畫面細(xì)節(jié)方面并不出彩,甚至有些依靠“Q版”圖耍小聰明的嫌疑。但這其實(shí)只是由于在提示中未規(guī)定畫面風(fēng)格的緣故。在生成寫實(shí)圖像方面,新平臺(tái)的能力也完全不亞于目前的主流文生圖工具。

      圖源:Youtube

      圖源:Youtube

      在以上的兩個(gè)案例中,我們不難看出,無論是油畫風(fēng)格圖像“公牛”的畫面質(zhì)感和筆觸細(xì)節(jié),亦或是寫實(shí)風(fēng)格圖像“水中少女”的光效、少女面部的水漬呈現(xiàn)等,兩幅圖像的逼真度和細(xì)節(jié)處理也均達(dá)到了業(yè)內(nèi)頂尖水準(zhǔn)。

      2、或采用全新生成模型

      除了圖像以外,關(guān)于OpenAI正在測(cè)試的這個(gè)新圖像生成平臺(tái),網(wǎng)上幾乎沒有出現(xiàn)其余的任何消息。但根據(jù)OpenAI于3月所發(fā)表的論文,不少專業(yè)人士推測(cè),該平臺(tái)很可能利用了全新的“一致性模型”而非目前業(yè)內(nèi)主流的“擴(kuò)散模型”。

      圖源:OpenAI

      在這篇名為《Consistency Models》的論文中,OpenAI提到,一致性模型在訓(xùn)練速度上覆蓋了擴(kuò)散模型,能夠“一步生成”,能夠比擴(kuò)散模型更快實(shí)現(xiàn)簡(jiǎn)單任務(wù),且所用計(jì)算量要少10-2000倍。此外,一致性模型也允許“多步采樣”,以計(jì)算換取樣本質(zhì)量。因此即使沒有迭代過程,一致性模型也可以產(chǎn)生高質(zhì)量結(jié)果,并能快速適用于實(shí)時(shí)任務(wù)。

      圖源:OpenAI

      與擴(kuò)散模型相同,一致性模型也支持零樣本數(shù)據(jù)編輯。例如在修補(bǔ)、著色或超分辨率任務(wù)中,一致性模型可以從預(yù)先訓(xùn)練的擴(kuò)散模型中提取數(shù)據(jù),也可以單獨(dú)進(jìn)行訓(xùn)練。根據(jù)OpenAI的說法,一致性模型能在所有非對(duì)抗性單步生成任務(wù)中勝過擴(kuò)散模型。

      圖源:OpenAI

      并且以上所提到的兩種訓(xùn)練方式都將“對(duì)抗訓(xùn)練”從中刪除了。這是由于對(duì)抗訓(xùn)練過程較為復(fù)雜,雖然這更易于產(chǎn)生強(qiáng)大的神經(jīng)網(wǎng)絡(luò),但對(duì)抗訓(xùn)練的方式也會(huì)導(dǎo)致模型預(yù)測(cè)的準(zhǔn)確率下降。部分業(yè)內(nèi)人士認(rèn)為,這便是OpenAI新平臺(tái)能夠在處理連貫任務(wù)和遵循提示方面表現(xiàn)得更好的主要原因。

      除此之外,一個(gè)沒有太多依據(jù)的猜測(cè)是,在Dall-E 2發(fā)布的幾個(gè)月前,OpenAI發(fā)表了幾篇關(guān)于擴(kuò)散模型的論文。如果從時(shí)間維度推測(cè),新平臺(tái)則很可能利用了全新的一致性模型。當(dāng)然,以上這些也只是目前業(yè)內(nèi)的普遍猜測(cè),在OpenAI官方發(fā)聲之前,估計(jì)我們也很難了解到更多關(guān)于該平臺(tái)的技術(shù)細(xì)節(jié)。

      3、還沒有完全準(zhǔn)備好

      而對(duì)于OpenAI為何要如此隱蔽的對(duì)該平臺(tái)進(jìn)行測(cè)試,根據(jù)博主MattVidPro的說法以及幾個(gè)相關(guān)的圖片案例來看,目前該平臺(tái)似乎仍未完成全部的開發(fā)工作,一些細(xì)節(jié)方面的問題依然有待進(jìn)一步完善。

      首先便是一直以來都困擾著生成模型的“畫手”問題,雖然在大部分情況下表現(xiàn)還算不錯(cuò),但新平臺(tái)偶爾也會(huì)在生成人物手部細(xì)節(jié)時(shí)犯錯(cuò)誤。例如在這張“打噴嚏的粉發(fā)少女”中,我們可以清晰地看到人物的手指被描繪成了六根。

      圖源:Youtube

      除此之外,根據(jù)粉絲的透露,目前該平臺(tái)還沒有設(shè)置任何安全限制,能夠生成包含血腥暴力、色情等敏感元素的圖像,甚至有時(shí)一些敏感圖像會(huì)在沒有提示的情況下彈出。視頻中,MattVidPro分享了一張相對(duì)委婉的生成圖像,并表示一些“有點(diǎn)出格的作品”并不方便公開展示。

      圖源:Youtube

      對(duì)于向來以追求極致而著稱的OpenAI來說,顯然目前該平臺(tái)的部分能力以及安全性還沒有達(dá)到他們最終所希望的水平。這也就可以解釋為什么OpenAI會(huì)選擇進(jìn)行相對(duì)隱蔽的測(cè)試行為且沒有進(jìn)行對(duì)外的公開發(fā)聲了。

      4、贏者通吃:OpenAI的下一步

      對(duì)于OpenAI的下一步計(jì)劃,不少網(wǎng)友也在Youtube上留下了自己的觀點(diǎn)。部分人認(rèn)為,由于GPT4目前已具有了多模態(tài)信息處理能力,OpenAI很可能會(huì)基于新平臺(tái)在下一版ChatGPT中集成強(qiáng)大的AI生成圖功能。

      另一部分人則認(rèn)為,OpenAI也可能會(huì)基于新平臺(tái)開發(fā)全新的AI生成圖產(chǎn)品(或是Dall E-3),與Midjourney、Stable Diffusion等產(chǎn)品競(jìng)爭(zhēng)并瓜分剩余市場(chǎng),以進(jìn)一步提升公司的盈利能力。畢竟目前ChatGPT的用戶增長(zhǎng)速率已達(dá)到了一個(gè)階段性的瓶頸。

      總之,雖然就目前看來,OpenAI的這個(gè)全新AI生成圖平臺(tái)仍需要進(jìn)行一些微調(diào)以及安全功能的引入,但平臺(tái)所流露出的信息已經(jīng)在業(yè)內(nèi)引起了一些積極的反響,并收獲了比現(xiàn)階段主流文生圖產(chǎn)品更高的評(píng)價(jià)。有專家預(yù)測(cè)該平臺(tái)或?qū)⒃诮衲昴甑渍綄?duì)用戶開放。

      圖源:Youtube

      不難看出,如今的科技巨頭們?cè)谌斯ぶ悄芊矫娴淖非笠巡辉贊M足于單純的語言模型,而是將攫取的枝杈伸展到了更廣闊的領(lǐng)域。無論是OpenAI正在測(cè)試的全新AI生成圖平臺(tái),亦或是Meta剛剛開源的文生音樂模型Audiocraft,都表明著人工智能的未來將在更豐富的模態(tài)上開花結(jié)果。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。