GPT-4o成為全領(lǐng)域SOTA！基準(zhǔn)測試遠(yuǎn)超Gemini和Claude，多模態(tài)功能遠(yuǎn)超GPT-4

2024年05月20日 09:51:28 來源：新智元公眾號

　　OpenAI半小時(shí)的發(fā)布會(huì)讓很多人第一反應(yīng)是直呼「失望」，但隨著官網(wǎng)放出更多demo以及更多網(wǎng)友開始試用，大家才發(fā)現(xiàn)GPT-4o真的不可小覷，不僅在各種基準(zhǔn)測試中穩(wěn)拿第一，而且有很多發(fā)布會(huì)從未提及的驚艷功能。

　　OpenAI在發(fā)布會(huì)上官宣GPT-4o之后，各路大神也開始了對這個(gè)新模型的測評，結(jié)果就是，GPT-4o在多項(xiàng)基準(zhǔn)測試上都展現(xiàn)了SOTA的實(shí)力。

　　別家發(fā)布會(huì)都在畫餅，OpanAI卻總能開出一種「欲揚(yáng)先抑」的效果，驚喜全在發(fā)布會(huì)之后。

　　基準(zhǔn)測試結(jié)果

　　首先，在LMSys聊天機(jī)器人競技場上的ELO分?jǐn)?shù)排行上，GPT-4o套了一個(gè)GPT2聊天機(jī)器人的馬甲，以一騎絕塵的態(tài)勢名列第一，評分為1310，和第二名GPT-4-turbo的1253分相比，呈現(xiàn)斷檔式的提升。

　　再來看多模態(tài)領(lǐng)域的基準(zhǔn)Reka Vibe-Eval，這也是一個(gè)很有挑戰(zhàn)性的測試，由269個(gè)超高質(zhì)量圖像文本對組成，用于評估多模態(tài)語言模型的性能。

　　在Reka Vibe-Eval 分?jǐn)?shù)的排行榜上，GPT-4o再次榮登第一，相比谷歌新發(fā)布的Gemini Pro1.5高出了將近三個(gè)百分點(diǎn)。

　　而且GPT-4o克服了這個(gè)測試集上大模型常見的「逆縮放」問題，也就是在某些案例中表現(xiàn)不如小模型的問題。

　　不止如此，GPT-4o的內(nèi)存突破也值得關(guān)注。

　　針里尋針(Needle in a Needlestack，NIAN)是最近非常流行的開源基準(zhǔn)測試，用于評估大模型關(guān)注上下文內(nèi)容的能力。

　　大語言模型的進(jìn)展導(dǎo)致曾經(jīng)流行的基準(zhǔn)測試「大海撈針」已經(jīng)過時(shí)，在此基礎(chǔ)上，更具挑戰(zhàn)性的「針里尋針」測試誕生了。

　　測試中，「針里尋針」會(huì)從一個(gè)大型打油詩數(shù)據(jù)庫中挑出幾首，將其放在prompt中的特定位置，之后再詢問關(guān)于這些打油詩的問題，由此可以很好地考察LLM的上下文記憶能力。

　　每個(gè)測試使用5-10個(gè)打油詩，放置在prompt中的5-10個(gè)位置，重復(fù)2-10次。

　　曾經(jīng)，GPT-4Turbo和Claude-3Sonnet都在「針里尋針」測試中表現(xiàn)得非常慘烈，側(cè)面證明了這個(gè)任務(wù)對LLM的難度和挑戰(zhàn)性。

　　廣受歡迎的Mistral模型雖然表現(xiàn)得稍好一點(diǎn)，但正確率基本不超過60%。

　　相比之前的模型，GPT-4o取得了飛躍性的突破，正確率每個(gè)token位置上都不低于80%，一度接近100%，表現(xiàn)近乎完美!

　　GPT-4o的能力被嚴(yán)重低估了

　　新推出的輕量級「GPT-4o」模型，雖然有速率限制，但重點(diǎn)是——免費(fèi)!

　　語音交互絕對是模型的「亮點(diǎn)」，但它的功能遠(yuǎn)不止于此!

　　OpenAI表示這是他們第一個(gè)真正的多模態(tài)模型，通過單一的神經(jīng)網(wǎng)絡(luò)完成所有任務(wù)。

　　網(wǎng)友表示「不知道這是否是真的還是有些夸大，但GPT-4o在所有領(lǐng)域的能力都超過了市場上的其他任何產(chǎn)品�！�

　　有網(wǎng)友發(fā)現(xiàn)，作為原生多模態(tài)模型，GPT-4o的文生圖效果非常驚艷，甚至超過DALLE和MidJourney

　　而且，在生成圖片上的文字時(shí)，效果更是遠(yuǎn)遠(yuǎn)好過DALL-E3。

　　DALL-E3在圖像上生成超過5個(gè)單詞后就會(huì)崩潰，而GPT-4o不僅做到文字的連續(xù)性，還能在之前生成圖像的基礎(chǔ)上進(jìn)行迭代。

　　這種迭代是非常重要的，也標(biāo)志著模型能力的巨大飛躍。雖然生成出來的文字還是非�！干病梗踔劣忻黠@錯(cuò)誤，但是迭代能力可以使GPT-4o后續(xù)逐漸減少文字和圖像方面的錯(cuò)誤。

　　除了生成文字，GPT-4o還能你為生成獨(dú)立的角色形象，然后進(jìn)行對話互動(dòng)。

　　神奇的是，他們把對話界面隱藏在一個(gè)懸停圖標(biāo)下!這意味著你可以對它進(jìn)行任意動(dòng)作、風(fēng)格和場景的設(shè)計(jì)!而且GPT-4o在風(fēng)格表現(xiàn)方面做得非常出色。

　　平面圖片不夠炫酷?GPT-4o能夠?qū)D片進(jìn)行3D重建。

　　GPT-4o還是一個(gè)強(qiáng)大的PS工具，OpenAI的logo被輕松嵌入到了杯墊上，但仔細(xì)看的話，你會(huì)注意到這兩張圖片不是同一個(gè)杯墊。

　　模型沒有在原圖片基礎(chǔ)上進(jìn)行修補(bǔ)，而是從頭生成，因此看起來像原始的、未經(jīng)過PS的圖片。

　　Reddit上一位網(wǎng)友分析認(rèn)為，OpenAI的Sam Altman等主創(chuàng)團(tuán)隊(duì)可能是太喜歡《Her》這部電影了，他們對GPT-4o的語音互動(dòng)設(shè)計(jì)很明顯受電影的啟發(fā)(Altman也暗示了這一點(diǎn))，而且發(fā)布會(huì)的展示也借鑒了電影的手法——

　　讓模型自己展示其驚人的能力，而不是像蘋果或者谷歌那樣列出原始數(shù)據(jù)和技術(shù)細(xì)節(jié)。

　　這樣做非常有「藝術(shù)感」，吊足了圍觀群眾好奇心，但也很容易讓人低估模型的能力。

　　GPT-4o的能力如此強(qiáng)大，也引發(fā)了對模型架構(gòu)的猜測和熱烈討論，網(wǎng)友們的觀點(diǎn)也呈現(xiàn)出兩個(gè)方向。

　　一派認(rèn)為，模型架構(gòu)應(yīng)該基本與GPT-4類似。

　　而另一方的觀點(diǎn)似乎更占上風(fēng)，認(rèn)為底層架構(gòu)絕對有重大變動(dòng)，目標(biāo)是對齊GPT-4的文字能力，并在推理和多模態(tài)方面相比GPT-4有更多提升。

　　白熱化的開源與閉源之爭

　　雖然搭載GPT-4o的ChatGPT聊天界面及其API已經(jīng)免費(fèi)開放給用戶使用，但OpenAI依舊堅(jiān)持了不開源的傳統(tǒng)，這次甚至連一篇技術(shù)報(bào)告都沒有。

　　但這并不影響GPT-4o在LLM角斗場中掀起風(fēng)云。Liquid AI的資深科學(xué)家Maxime Labonne這樣描述:「LLM 爭奪戰(zhàn)愈演愈烈，GPT-4o 遙遙領(lǐng)先」

　　這場競爭中值得關(guān)注的另一個(gè)角度，則是大語言模型的開源和閉源之戰(zhàn)。GPT-4o能力的快速增長導(dǎo)致閉源和開源之間的差距再次被拉大。

　　更重要的是，閉源陣容中并非GPT-4o一枝獨(dú)秀。綜合迄今為止發(fā)布的所有LLM，閉源模型的總體表現(xiàn)始終比開源模型更加優(yōu)秀，而且GPT、Claude、Gemini等系列的閉源模型始終走在最前沿。

　　紅色代表閉源模型，綠色代表開源模型，藍(lán)色區(qū)域表示二者之間的差距

　　曾經(jīng)，大公司將Linux、安卓等項(xiàng)目開源的動(dòng)力是希望借助所有開發(fā)者的力量，得到不同角度的反饋和更新意見，從而進(jìn)行快速的迭代優(yōu)化，并且構(gòu)建了在世界范圍內(nèi)有廣泛影響力的大規(guī)模社區(qū)，反哺其他的產(chǎn)品線。

　　但對于LLM來說，情況就不一樣了。

　　想要不斷提升大語言模型的能力，算力成本是更大的挑戰(zhàn)。根據(jù)斯坦福大學(xué)發(fā)布的2024年人工智能指數(shù)報(bào)告，訓(xùn)練GPT-4的計(jì)算成本約為7800萬美元，Gemini Ultra則是一億九千一百萬美元左右。

　　面對這種級別的投入，去中心化的開源社區(qū)對比有巨額投資的科技公司，顯然沒有優(yōu)勢。企業(yè)要想擴(kuò)大模型產(chǎn)品的影響力，只需像OpenAI一樣，免費(fèi)開放API給用戶使用即可。

　　目前這種開源和閉源模型差距越來越大的趨勢，Jim Fan曾在去年6月就做出過類似的預(yù)測。

　　但是，LLM的開閉源之爭，不僅是企業(yè)的商業(yè)決策，更關(guān)乎AI行業(yè)整體的發(fā)展。

　　首先是安全性問題。最近剛從OpenAI離職的首席科學(xué)家Ilya Sutskever本人就對此十分關(guān)注，他曾在2016的一封電郵中寫道:「隨著我們越來越接近構(gòu)建人工智能，開始變的不那么開放是有意義的�！�

　　可以想象一下，如果像GPT-4o這樣能力強(qiáng)大的模型公布了代碼和模型權(quán)重，任何開發(fā)者都可以在此基礎(chǔ)上微調(diào)，以滿足自己定義的任何功能，AI的力量可能會(huì)迅速失控。

　　「像 GPT 這樣的研究如果落入壞人之手，也可能會(huì)進(jìn)化并導(dǎo)致災(zāi)難�！�

　　但另一方面，這些只開放API但不開源的大語言模型對初創(chuàng)公司并不友好。他們沒辦法根據(jù)特定的需求和場景、使用私有數(shù)據(jù)對模型進(jìn)行微調(diào)，開發(fā)出有獨(dú)創(chuàng)性的、功能靈活多樣的產(chǎn)品，只能開始「套殼」。

　　導(dǎo)致的結(jié)果就是，AI初創(chuàng)公司并沒有像我們想象的那樣蓬勃發(fā)展，我們也沒有看到更多的滲透到工作和生活各方各面的AI產(chǎn)品。

　　正像Jim Fan推文中提到的，「開源LLM總是有更大的多樣性」。

　　這似乎是一個(gè)兩難問題。

　　隨著大模型之戰(zhàn)愈演愈烈，相信對于開源和閉源的激烈討論依舊會(huì)持續(xù)下去。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

GPT-4o成為全領(lǐng)域SOTA！基準(zhǔn)測試遠(yuǎn)超Gemini和Claude，多模態(tài)功能遠(yuǎn)超GPT-4

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

GPT-4o成為全領(lǐng)域SOTA！基準(zhǔn)測試遠(yuǎn)超Gemini和Claude，多模態(tài)功能遠(yuǎn)超GPT-4

擴(kuò)展閱讀

GPT-4o成為全領(lǐng)域SOTA！基準(zhǔn)測試遠(yuǎn)超Gemini和Claude，多模態(tài)功能遠(yuǎn)超GPT-4