OpenAI真憋了個(gè)大的。
美國(guó)當(dāng)?shù)貢r(shí)間5月13日上午10點(diǎn)(北京時(shí)間5月14日凌晨1點(diǎn)),OpenAI春季發(fā)布會(huì)如約而至,沒有GPT-5,沒有搜索引擎,但推出了一個(gè)新的旗艦?zāi)P?GPT-4o。
“o”是Omni的縮寫,意為“全能”,接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出。
從直播演示來(lái)看,GPT-4o的多模態(tài)、實(shí)時(shí)交互能力,已經(jīng)足夠驚艷到讓人直呼科幻電影《her》真的變成了現(xiàn)實(shí)。
值得劃重點(diǎn)的是,GPT-4o和ChatGPT Plus會(huì)員版所有的能力,將免費(fèi)向所有用戶開放!
不過(guò),GPT-4o的新語(yǔ)音模式在未來(lái)幾周內(nèi)會(huì)優(yōu)先對(duì)ChatGPT Plus會(huì)員開放。
此外,GPT-4o也向開發(fā)者開放了API。與GPT-4Turbo相比,GPT-4o價(jià)格減半,但速度卻快了2倍,速率限制高出5倍。OpenAI稱,接下來(lái)會(huì)向部分API合作伙伴提供新的音頻和視頻功能支持。
GPT-4o到底有多強(qiáng)?昨晚“頭號(hào)AI玩家”全程圍觀直播,現(xiàn)在讓我們來(lái)一起回顧下其中細(xì)節(jié)。
GPT-4o驚艷面世,
核心能力全盤點(diǎn)
01.零延遲實(shí)時(shí)語(yǔ)音交互,自然真實(shí)富有情感
首先是零延遲實(shí)時(shí)語(yǔ)音交互,在這個(gè)環(huán)節(jié),GPT表現(xiàn)得像是富有情感的真人。
在直播演示過(guò)程中,演示者M(jìn)ark對(duì)GPT-4o說(shuō):“我正在做demo,我有點(diǎn)緊張。”然后他開始故意喘息得非常急促,GPT-4o很快識(shí)別出了他的呼吸聲,告訴他:“哦,哦,哦,別緊張,慢下來(lái),你不是個(gè)吸塵器。”并指導(dǎo)他調(diào)整呼吸。
整個(gè)過(guò)程中,GPT-4o的語(yǔ)氣都非常自然、真實(shí)、富有情感,你可以隨時(shí)打斷它,要求它調(diào)整語(yǔ)氣和音調(diào)。
另一位演示者讓GPT-4o講一個(gè)關(guān)于“機(jī)器人與愛”的睡前故事。剛講一句,Mark Chen就打斷了它,說(shuō)它講故事的語(yǔ)氣不夠有情感。GPT-4o調(diào)整過(guò)后,Mark Chen又很快打斷它,要求它情緒再飽滿再drama一點(diǎn),然后GPT-4o的情緒又上了一個(gè)臺(tái)階,甚至可以說(shuō)是浮夸的程度。
然后,演示者要求它切換成機(jī)器人聲音,GPT-4o的聲音和語(yǔ)氣立馬變得冷漠和機(jī)械。
這還沒完,演示者又讓GPT-4o用唱歌的方式把故事講完,GPT-4o當(dāng)場(chǎng)把故事改編成了一首歌,并直接唱了出來(lái),節(jié)目效果拉滿。
相比之下,ChatGPT的語(yǔ)音模式平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4),這無(wú)疑會(huì)破壞對(duì)話的沉浸感。
此外,由于模型需要先將語(yǔ)音轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收處理并輸出文本,再將文本轉(zhuǎn)換為語(yǔ)音,所以GPT-3.5或GPT-4無(wú)法直接獲知語(yǔ)氣、音調(diào)、背景噪音等信息,也無(wú)法輸出笑聲、歌聲或表達(dá)情感。
02.通過(guò)攝像頭視覺傳達(dá)內(nèi)容,在線解方程式
除了語(yǔ)音交互外,還可以通過(guò)視覺+語(yǔ)音的形式,如實(shí)時(shí)視頻、上傳圖片等方式,與GPT-4o進(jìn)行多模態(tài)交互。
發(fā)布會(huì)上,OpenAI展示了GPT-4o通過(guò)多模態(tài)能力幫助用戶解決數(shù)學(xué)題的完整過(guò)程。
視覺解析圖形報(bào)表也手到擒來(lái)。OpenAI官方博客中,用戶一邊和GPT-4o語(yǔ)音,一邊在平板上畫圖,根據(jù)語(yǔ)音信息,解幾何數(shù)學(xué)題。
03.更智能的保姆級(jí)編程助手
用GPT-4o來(lái)實(shí)時(shí)編程,也比以前的純文本形式或上傳圖片進(jìn)行文字對(duì)話的方式,更有交互感。
官方演示中, OpenAI使用電腦桌面端GPT-4o來(lái)檢查代碼,它不僅可以解釋代碼的作用,還可以告訴用戶如果調(diào)整特定代碼會(huì)發(fā)生什么。
通過(guò)一步又一步的實(shí)時(shí)問(wèn)答溝通,GPT-4o可以幫助用戶提高編程效率,整個(gè)過(guò)程相當(dāng)絲滑。
超強(qiáng)的實(shí)時(shí)語(yǔ)音+視覺交互能力,運(yùn)用在編程輔助上,以后還要啥程序員鼓勵(lì)師。
04.視頻通話,實(shí)時(shí)分析面部情緒
演示者還在X上實(shí)時(shí)收集了網(wǎng)友的反饋,其中有人提出挑戰(zhàn):打開攝像頭,看GPT-4o能不能實(shí)時(shí)分析面部情緒。
演示者先是打開了后置攝像頭,拍到的是面前的桌子,GPT-4o立刻分析道:“你看起來(lái)是個(gè)桌子。”
在切換為前置攝影頭后,演示者的臉出現(xiàn)在與GPT-4o進(jìn)行交互的界面,一整個(gè)打視頻電話的即視感。
GPT-4o立刻說(shuō):“你看起來(lái)非常開心,有大大的笑容,你想分享一下讓你這么開心的原因嗎?”語(yǔ)氣中甚至能聽出一絲好奇和試探。
演示者回答道:“因?yàn)槲以谧鰧?shí)時(shí)演示,讓大家看看你有多出色。”
GPT-4o帶著笑聲說(shuō):“拜托,別害我臉紅了。”
看到這,“頭號(hào)AI玩家”腦海里不禁回響起Samantha與Theodore之間的戀人絮語(yǔ)。
《Her》真的變成現(xiàn)實(shí)了。
05.同聲傳譯,支持多國(guó)語(yǔ)言
目前,ChatGPT支持超過(guò)50種語(yǔ)言。據(jù)介紹,GPT-4o的語(yǔ)言能力在質(zhì)量和速度上都得到了改進(jìn)。
官方演示中,一個(gè)人說(shuō)英語(yǔ),另一個(gè)人說(shuō)西班牙語(yǔ),通過(guò)語(yǔ)音指示GPT-4o實(shí)時(shí)翻譯,兩人實(shí)現(xiàn)了流暢的溝通。GPT-4o基本上只在開頭停頓了1~2秒,在句子中沒有出現(xiàn)停頓、卡殼等現(xiàn)象。
不過(guò),有點(diǎn)bug的是,由于GPT-4o是中間的溝通媒介,導(dǎo)致兩位對(duì)話者并沒有直接看對(duì)方,而是都看向了手機(jī)。未來(lái)或許會(huì)有新型設(shè)備出現(xiàn),利用AI技術(shù)讓使用不同語(yǔ)言的人們能夠更自然地進(jìn)行交流。
變革人機(jī)交互,
但還不是GPT-5
OpenAI首席技術(shù)官M(fèi)ira Murati在直播中介紹,GPT-4o是標(biāo)志性產(chǎn)品GPT-4模型的一個(gè)迭代版本:提供了GPT-4級(jí)別的智能,但速度更快,并改進(jìn)了其在文本、語(yǔ)音和視覺方面的能力。
OpenAI首席執(zhí)行官Sam Altman發(fā)帖稱該模型是“原生多模態(tài)”的,在文本、視覺和音頻上端到端地訓(xùn)練了一個(gè)新模型,GPT-4o所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。
根據(jù)官方博客介紹,在基準(zhǔn)測(cè)試中,GPT-4o在文本、推理和編碼智能方面達(dá)到了GPT-4Turbo級(jí)別的性能,同時(shí)在多語(yǔ)言、音頻和視覺能力上設(shè)定了新的標(biāo)準(zhǔn)。
OpenAI計(jì)劃在未來(lái)幾周內(nèi)逐步推出GPT-4o的各項(xiàng)能力。其中,文本和圖像能力將從發(fā)布會(huì)后當(dāng)天開始在ChatGPT中推出,Plus用戶可以搶先體驗(yàn),并擁有相比免費(fèi)用戶多高達(dá)5倍的消息限制。帶有GPT-4o新版本語(yǔ)音模式也將在未來(lái)幾周內(nèi)在ChatGPT Plus中推出。
針對(duì)免費(fèi)用戶,OpenAI也主打一個(gè)“雨露均沾”,在接下來(lái)的幾周內(nèi)會(huì)面向所有用戶,推出GPT-4o及其相關(guān)功能:
1.體驗(yàn)GPT-4級(jí)智能
2.從模型和網(wǎng)頁(yè)獲取響應(yīng)(聯(lián)網(wǎng)了)
3.分析數(shù)據(jù)并創(chuàng)建圖表
4.支持上傳照片進(jìn)行交互
5.上傳文件以幫助總結(jié)、撰寫或分析
6.發(fā)現(xiàn)和使用GPT和GPT商店
7.可自定義控制的ChatGPT“內(nèi)存”(擁有更強(qiáng)的“記憶力”)
目前已經(jīng)體驗(yàn)到GPT-4o的玩家告訴我們:體驗(yàn)太絲滑了!后續(xù)“頭號(hào)AI玩家”也將跟進(jìn)更詳細(xì)的玩法評(píng)測(cè)。
當(dāng)然,炸場(chǎng)的不只是OpenAI,在這個(gè)被稱為全球“AI月”的5月,肉眼可見地,我們還將迎來(lái)谷歌的I/O開發(fā)者大會(huì)、微軟Build年度開發(fā)者大會(huì)、英偉達(dá)一季報(bào)發(fā)布等AI領(lǐng)域重要事件。
此外,預(yù)計(jì)6月10日舉辦的蘋果WWDC大會(huì)或?qū)⑼瞥鋈翧I應(yīng)用商店,并可能升級(jí)Siri語(yǔ)音助手,引入新的生成式AI系統(tǒng)。
試猜想,如果蘋果真的順利與OpenAI達(dá)成合作,GPT-4o被引入到iPhone設(shè)備端,取代(或升級(jí))Siri,似乎也是順理成章的事。
總的來(lái)說(shuō),相比圖形用戶界面,GPT-4o近乎實(shí)時(shí)的語(yǔ)音和視頻交互體驗(yàn),標(biāo)志著人機(jī)交互迎來(lái)了新的變革,更自然、更直觀的交互體驗(yàn),已經(jīng)非常接近我們?cè)诳苹闷锟吹降娜斯ぶ悄,斯派?middot;瓊斯導(dǎo)演的科幻電影《Her》也因此被頻頻提及。
獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛甚至連夜錄制視頻夸OpenAI在“大家都在拼大模型的參數(shù)和性能時(shí),OpenAI殺了個(gè)回馬槍,認(rèn)真地做起了整合和應(yīng)用”。
看完今天OpenAI的發(fā)布,很難想象谷歌明天得拿出多大的殺手锏,才能擺脫“AI屆汪峰”的命運(yùn)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。