上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領先的目標網(wǎng)絡AI 3D生成天花板再拉升!清華團隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團喜歡“追風口”快手電商新增近800個“0元開店”類目,推出多項新商入駐權益年內狂攬五項第一,“字節(jié)系大模型”何以后發(fā)先至?
  • 首頁 > 云計算頻道 > 大模型

    GPT-4o成為全領域SOTA!基準測試遠超Gemini和Claude,多模態(tài)功能遠超GPT-4

    2024年05月20日 09:51:28   來源:新智元公眾號

      OpenAI半小時的發(fā)布會讓很多人第一反應是直呼「失望」,但隨著官網(wǎng)放出更多demo以及更多網(wǎng)友開始試用,大家才發(fā)現(xiàn)GPT-4o真的不可小覷,不僅在各種基準測試中穩(wěn)拿第一,而且有很多發(fā)布會從未提及的驚艷功能。

      OpenAI在發(fā)布會上官宣GPT-4o之后,各路大神也開始了對這個新模型的測評,結果就是,GPT-4o在多項基準測試上都展現(xiàn)了SOTA的實力。

      別家發(fā)布會都在畫餅,OpanAI卻總能開出一種「欲揚先抑」的效果,驚喜全在發(fā)布會之后。

      基準測試結果

      首先,在LMSys聊天機器人競技場上的ELO分數(shù)排行上,GPT-4o套了一個GPT2聊天機器人的馬甲,以一騎絕塵的態(tài)勢名列第一,評分為1310,和第二名GPT-4-turbo的1253分相比,呈現(xiàn)斷檔式的提升。

      再來看多模態(tài)領域的基準Reka Vibe-Eval,這也是一個很有挑戰(zhàn)性的測試,由269個超高質量圖像文本對組成,用于評估多模態(tài)語言模型的性能。

      在Reka Vibe-Eval 分數(shù)的排行榜上,GPT-4o再次榮登第一,相比谷歌新發(fā)布的Gemini Pro1.5高出了將近三個百分點。

      而且GPT-4o克服了這個測試集上大模型常見的「逆縮放」問題,也就是在某些案例中表現(xiàn)不如小模型的問題。

      不止如此,GPT-4o的內存突破也值得關注。

      針里尋針(Needle in a Needlestack,NIAN)是最近非常流行的開源基準測試,用于評估大模型關注上下文內容的能力。

      大語言模型的進展導致曾經(jīng)流行的基準測試「大海撈針」已經(jīng)過時,在此基礎上,更具挑戰(zhàn)性的「針里尋針」測試誕生了。

      測試中,「針里尋針」會從一個大型打油詩數(shù)據(jù)庫中挑出幾首,將其放在prompt中的特定位置,之后再詢問關于這些打油詩的問題,由此可以很好地考察LLM的上下文記憶能力。

      每個測試使用5-10個打油詩,放置在prompt中的5-10個位置,重復2-10次。

      曾經(jīng),GPT-4Turbo和Claude-3Sonnet都在「針里尋針」測試中表現(xiàn)得非常慘烈,側面證明了這個任務對LLM的難度和挑戰(zhàn)性。

      廣受歡迎的Mistral模型雖然表現(xiàn)得稍好一點,但正確率基本不超過60%。

      相比之前的模型,GPT-4o取得了飛躍性的突破,正確率每個token位置上都不低于80%,一度接近100%,表現(xiàn)近乎完美!

      GPT-4o的能力被嚴重低估了

      新推出的輕量級「GPT-4o」模型,雖然有速率限制,但重點是——免費!

      語音交互絕對是模型的「亮點」,但它的功能遠不止于此!

      OpenAI表示這是他們第一個真正的多模態(tài)模型,通過單一的神經(jīng)網(wǎng)絡完成所有任務。

      網(wǎng)友表示「不知道這是否是真的還是有些夸大,但GPT-4o在所有領域的能力都超過了市場上的其他任何產(chǎn)品。」

      有網(wǎng)友發(fā)現(xiàn),作為原生多模態(tài)模型,GPT-4o的文生圖效果非常驚艷,甚至超過DALLE和MidJourney

      而且,在生成圖片上的文字時,效果更是遠遠好過DALL-E3。

      DALL-E3在圖像上生成超過5個單詞后就會崩潰,而GPT-4o不僅做到文字的連續(xù)性,還能在之前生成圖像的基礎上進行迭代。

      這種迭代是非常重要的,也標志著模型能力的巨大飛躍。雖然生成出來的文字還是非常「生硬」,甚至有明顯錯誤,但是迭代能力可以使GPT-4o后續(xù)逐漸減少文字和圖像方面的錯誤。

      除了生成文字,GPT-4o還能你為生成獨立的角色形象,然后進行對話互動。

      神奇的是,他們把對話界面隱藏在一個懸停圖標下!這意味著你可以對它進行任意動作、風格和場景的設計!而且GPT-4o在風格表現(xiàn)方面做得非常出色。

      平面圖片不夠炫酷?GPT-4o能夠對圖片進行3D重建。

      GPT-4o還是一個強大的PS工具,OpenAI的logo被輕松嵌入到了杯墊上,但仔細看的話,你會注意到這兩張圖片不是同一個杯墊。

      模型沒有在原圖片基礎上進行修補,而是從頭生成,因此看起來像原始的、未經(jīng)過PS的圖片。

      Reddit上一位網(wǎng)友分析認為,OpenAI的Sam Altman等主創(chuàng)團隊可能是太喜歡《Her》這部電影了,他們對GPT-4o的語音互動設計很明顯受電影的啟發(fā)(Altman也暗示了這一點),而且發(fā)布會的展示也借鑒了電影的手法——

      讓模型自己展示其驚人的能力,而不是像蘋果或者谷歌那樣列出原始數(shù)據(jù)和技術細節(jié)。

      這樣做非常有「藝術感」,吊足了圍觀群眾好奇心,但也很容易讓人低估模型的能力。

      GPT-4o的能力如此強大,也引發(fā)了對模型架構的猜測和熱烈討論,網(wǎng)友們的觀點也呈現(xiàn)出兩個方向。

      一派認為,模型架構應該基本與GPT-4類似。

      而另一方的觀點似乎更占上風,認為底層架構絕對有重大變動,目標是對齊GPT-4的文字能力,并在推理和多模態(tài)方面相比GPT-4有更多提升。

      白熱化的開源與閉源之爭

      雖然搭載GPT-4o的ChatGPT聊天界面及其API已經(jīng)免費開放給用戶使用,但OpenAI依舊堅持了不開源的傳統(tǒng),這次甚至連一篇技術報告都沒有。

      但這并不影響GPT-4o在LLM角斗場中掀起風云。Liquid AI的資深科學家Maxime Labonne這樣描述:「LLM 爭奪戰(zhàn)愈演愈烈,GPT-4o 遙遙領先」

      這場競爭中值得關注的另一個角度,則是大語言模型的開源和閉源之戰(zhàn)。GPT-4o能力的快速增長導致閉源和開源之間的差距再次被拉大。

      更重要的是,閉源陣容中并非GPT-4o一枝獨秀。綜合迄今為止發(fā)布的所有LLM,閉源模型的總體表現(xiàn)始終比開源模型更加優(yōu)秀,而且GPT、Claude、Gemini等系列的閉源模型始終走在最前沿。

      紅色代表閉源模型,綠色代表開源模型,藍色區(qū)域表示二者之間的差距

      曾經(jīng),大公司將Linux、安卓等項目開源的動力是希望借助所有開發(fā)者的力量,得到不同角度的反饋和更新意見,從而進行快速的迭代優(yōu)化,并且構建了在世界范圍內有廣泛影響力的大規(guī)模社區(qū),反哺其他的產(chǎn)品線。

      但對于LLM來說,情況就不一樣了。

      想要不斷提升大語言模型的能力,算力成本是更大的挑戰(zhàn)。根據(jù)斯坦福大學發(fā)布的2024年人工智能指數(shù)報告,訓練GPT-4的計算成本約為7800萬美元,Gemini Ultra則是一億九千一百萬美元左右。

      面對這種級別的投入,去中心化的開源社區(qū)對比有巨額投資的科技公司,顯然沒有優(yōu)勢。企業(yè)要想擴大模型產(chǎn)品的影響力,只需像OpenAI一樣,免費開放API給用戶使用即可。

      目前這種開源和閉源模型差距越來越大的趨勢,Jim Fan曾在去年6月就做出過類似的預測。

      但是,LLM的開閉源之爭,不僅是企業(yè)的商業(yè)決策,更關乎AI行業(yè)整體的發(fā)展。

      首先是安全性問題。最近剛從OpenAI離職的首席科學家Ilya Sutskever本人就對此十分關注,他曾在2016的一封電郵中寫道:「隨著我們越來越接近構建人工智能,開始變的不那么開放是有意義的!

      可以想象一下,如果像GPT-4o這樣能力強大的模型公布了代碼和模型權重,任何開發(fā)者都可以在此基礎上微調,以滿足自己定義的任何功能,AI的力量可能會迅速失控。

      「像 GPT 這樣的研究如果落入壞人之手,也可能會進化并導致災難。」

      但另一方面,這些只開放API但不開源的大語言模型對初創(chuàng)公司并不友好。他們沒辦法根據(jù)特定的需求和場景、使用私有數(shù)據(jù)對模型進行微調,開發(fā)出有獨創(chuàng)性的、功能靈活多樣的產(chǎn)品,只能開始「套殼」。

      導致的結果就是,AI初創(chuàng)公司并沒有像我們想象的那樣蓬勃發(fā)展,我們也沒有看到更多的滲透到工作和生活各方各面的AI產(chǎn)品。

      正像Jim Fan推文中提到的,「開源LLM總是有更大的多樣性」。

      這似乎是一個兩難問題。

      隨著大模型之戰(zhàn)愈演愈烈,相信對于開源和閉源的激烈討論依舊會持續(xù)下去。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。