OpenAI一夜之間革了Siri和同傳的命，GPT-4o五大核心能力炸場(chǎng)！

2024年05月14日 09:48:43 來(lái)源：頭號(hào)AI玩家公眾號(hào)

　　OpenAI真憋了個(gè)大的。

　　美國(guó)當(dāng)?shù)貢r(shí)間5月13日上午10點(diǎn)(北京時(shí)間5月14日凌晨1點(diǎn))，OpenAI春季發(fā)布會(huì)如約而至，沒有GPT-5，沒有搜索引擎，但推出了一個(gè)新的旗艦?zāi)Ｐ?GPT-4o。

　　“o”是Omni的縮寫，意為“全能”，接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像輸出。

　　從直播演示來(lái)看，GPT-4o的多模態(tài)、實(shí)時(shí)交互能力，已經(jīng)足夠驚艷到讓人直呼科幻電影《her》真的變成了現(xiàn)實(shí)。

　　值得劃重點(diǎn)的是，GPT-4o和ChatGPT Plus會(huì)員版所有的能力，將免費(fèi)向所有用戶開放!

　　不過(guò)，GPT-4o的新語(yǔ)音模式在未來(lái)幾周內(nèi)會(huì)優(yōu)先對(duì)ChatGPT Plus會(huì)員開放。

　　此外，GPT-4o也向開發(fā)者開放了API。與GPT-4Turbo相比，GPT-4o價(jià)格減半，但速度卻快了2倍，速率限制高出5倍。OpenAI稱，接下來(lái)會(huì)向部分API合作伙伴提供新的音頻和視頻功能支持。

　　GPT-4o到底有多強(qiáng)?昨晚“頭號(hào)AI玩家”全程圍觀直播，現(xiàn)在讓我們來(lái)一起回顧下其中細(xì)節(jié)。

　　GPT-4o驚艷面世，

　　核心能力全盤點(diǎn)

　　01.零延遲實(shí)時(shí)語(yǔ)音交互，自然真實(shí)富有情感

　　首先是零延遲實(shí)時(shí)語(yǔ)音交互，在這個(gè)環(huán)節(jié)，GPT表現(xiàn)得像是富有情感的真人。

　　在直播演示過(guò)程中，演示者M(jìn)ark對(duì)GPT-4o說(shuō):“我正在做demo，我有點(diǎn)緊張。”然后他開始故意喘息得非常急促，GPT-4o很快識(shí)別出了他的呼吸聲，告訴他:“哦，哦，哦，別緊張，慢下來(lái)，你不是個(gè)吸塵器。”并指導(dǎo)他調(diào)整呼吸。

　　整個(gè)過(guò)程中，GPT-4o的語(yǔ)氣都非常自然、真實(shí)、富有情感，你可以隨時(shí)打斷它，要求它調(diào)整語(yǔ)氣和音調(diào)。

　　另一位演示者讓GPT-4o講一個(gè)關(guān)于“機(jī)器人與愛”的睡前故事。剛講一句，Mark Chen就打斷了它，說(shuō)它講故事的語(yǔ)氣不夠有情感。GPT-4o調(diào)整過(guò)后，Mark Chen又很快打斷它，要求它情緒再飽滿再drama一點(diǎn)，然后GPT-4o的情緒又上了一個(gè)臺(tái)階，甚至可以說(shuō)是浮夸的程度。

　　然后，演示者要求它切換成機(jī)器人聲音，GPT-4o的聲音和語(yǔ)氣立馬變得冷漠和機(jī)械。

　　這還沒完，演示者又讓GPT-4o用唱歌的方式把故事講完，GPT-4o當(dāng)場(chǎng)把故事改編成了一首歌，并直接唱了出來(lái)，節(jié)目效果拉滿。

　　相比之下，ChatGPT的語(yǔ)音模式平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)，這無(wú)疑會(huì)破壞對(duì)話的沉浸感。

　　此外，由于模型需要先將語(yǔ)音轉(zhuǎn)錄為文本，GPT-3.5或GPT-4接收處理并輸出文本，再將文本轉(zhuǎn)換為語(yǔ)音，所以GPT-3.5或GPT-4無(wú)法直接獲知語(yǔ)氣、音調(diào)、背景噪音等信息，也無(wú)法輸出笑聲、歌聲或表達(dá)情感。

　　02.通過(guò)攝像頭視覺傳達(dá)內(nèi)容，在線解方程式

　　除了語(yǔ)音交互外，還可以通過(guò)視覺+語(yǔ)音的形式，如實(shí)時(shí)視頻、上傳圖片等方式，與GPT-4o進(jìn)行多模態(tài)交互。

　　發(fā)布會(huì)上，OpenAI展示了GPT-4o通過(guò)多模態(tài)能力幫助用戶解決數(shù)學(xué)題的完整過(guò)程。

　　視覺解析圖形報(bào)表也手到擒來(lái)。OpenAI官方博客中，用戶一邊和GPT-4o語(yǔ)音，一邊在平板上畫圖，根據(jù)語(yǔ)音信息，解幾何數(shù)學(xué)題。

　　03.更智能的保姆級(jí)編程助手

　　用GPT-4o來(lái)實(shí)時(shí)編程，也比以前的純文本形式或上傳圖片進(jìn)行文字對(duì)話的方式，更有交互感。

　　官方演示中， OpenAI使用電腦桌面端GPT-4o來(lái)檢查代碼，它不僅可以解釋代碼的作用，還可以告訴用戶如果調(diào)整特定代碼會(huì)發(fā)生什么。

　　通過(guò)一步又一步的實(shí)時(shí)問(wèn)答溝通，GPT-4o可以幫助用戶提高編程效率，整個(gè)過(guò)程相當(dāng)絲滑。

　　超強(qiáng)的實(shí)時(shí)語(yǔ)音+視覺交互能力，運(yùn)用在編程輔助上，以后還要啥程序員鼓勵(lì)師。

　　04.視頻通話，實(shí)時(shí)分析面部情緒

　　演示者還在X上實(shí)時(shí)收集了網(wǎng)友的反饋，其中有人提出挑戰(zhàn):打開攝像頭，看GPT-4o能不能實(shí)時(shí)分析面部情緒。

　　演示者先是打開了后置攝像頭，拍到的是面前的桌子，GPT-4o立刻分析道:“你看起來(lái)是個(gè)桌子。”

　　在切換為前置攝影頭后，演示者的臉出現(xiàn)在與GPT-4o進(jìn)行交互的界面，一整個(gè)打視頻電話的即視感。

　　GPT-4o立刻說(shuō):“你看起來(lái)非常開心，有大大的笑容，你想分享一下讓你這么開心的原因嗎?”語(yǔ)氣中甚至能聽出一絲好奇和試探。

　　演示者回答道:“因?yàn)槲以谧鰧?shí)時(shí)演示，讓大家看看你有多出色。”

　　GPT-4o帶著笑聲說(shuō):“拜托，別害我臉紅了。”

　　看到這，“頭號(hào)AI玩家”腦海里不禁回響起Samantha與Theodore之間的戀人絮語(yǔ)。

　　《Her》真的變成現(xiàn)實(shí)了。

　　05.同聲傳譯，支持多國(guó)語(yǔ)言

　　目前，ChatGPT支持超過(guò)50種語(yǔ)言。據(jù)介紹，GPT-4o的語(yǔ)言能力在質(zhì)量和速度上都得到了改進(jìn)。

　　官方演示中，一個(gè)人說(shuō)英語(yǔ)，另一個(gè)人說(shuō)西班牙語(yǔ)，通過(guò)語(yǔ)音指示GPT-4o實(shí)時(shí)翻譯，兩人實(shí)現(xiàn)了流暢的溝通。GPT-4o基本上只在開頭停頓了1~2秒，在句子中沒有出現(xiàn)停頓、卡殼等現(xiàn)象。

　　不過(guò)，有點(diǎn)bug的是，由于GPT-4o是中間的溝通媒介，導(dǎo)致兩位對(duì)話者并沒有直接看對(duì)方，而是都看向了手機(jī)。未來(lái)或許會(huì)有新型設(shè)備出現(xiàn)，利用AI技術(shù)讓使用不同語(yǔ)言的人們能夠更自然地進(jìn)行交流。

　　變革人機(jī)交互，

　　但還不是GPT-5

　　OpenAI首席技術(shù)官M(fèi)ira Murati在直播中介紹，GPT-4o是標(biāo)志性產(chǎn)品GPT-4模型的一個(gè)迭代版本:提供了GPT-4級(jí)別的智能，但速度更快，并改進(jìn)了其在文本、語(yǔ)音和視覺方面的能力。

　　OpenAI首席執(zhí)行官Sam Altman發(fā)帖稱該模型是“原生多模態(tài)”的，在文本、視覺和音頻上端到端地訓(xùn)練了一個(gè)新模型，GPT-4o所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

　　根據(jù)官方博客介紹，在基準(zhǔn)測(cè)試中，GPT-4o在文本、推理和編碼智能方面達(dá)到了GPT-4Turbo級(jí)別的性能，同時(shí)在多語(yǔ)言、音頻和視覺能力上設(shè)定了新的標(biāo)準(zhǔn)。

　　OpenAI計(jì)劃在未來(lái)幾周內(nèi)逐步推出GPT-4o的各項(xiàng)能力。其中，文本和圖像能力將從發(fā)布會(huì)后當(dāng)天開始在ChatGPT中推出，Plus用戶可以搶先體驗(yàn)，并擁有相比免費(fèi)用戶多高達(dá)5倍的消息限制。帶有GPT-4o新版本語(yǔ)音模式也將在未來(lái)幾周內(nèi)在ChatGPT Plus中推出。

　　針對(duì)免費(fèi)用戶，OpenAI也主打一個(gè)“雨露均沾”，在接下來(lái)的幾周內(nèi)會(huì)面向所有用戶，推出GPT-4o及其相關(guān)功能:

　　1.體驗(yàn)GPT-4級(jí)智能

　　2.從模型和網(wǎng)頁(yè)獲取響應(yīng)(聯(lián)網(wǎng)了)

　　3.分析數(shù)據(jù)并創(chuàng)建圖表

　　4.支持上傳照片進(jìn)行交互

　　5.上傳文件以幫助總結(jié)、撰寫或分析

　　6.發(fā)現(xiàn)和使用GPT和GPT商店

　　7.可自定義控制的ChatGPT“內(nèi)存”(擁有更強(qiáng)的“記憶力”)

　　目前已經(jīng)體驗(yàn)到GPT-4o的玩家告訴我們:體驗(yàn)太絲滑了!后續(xù)“頭號(hào)AI玩家”也將跟進(jìn)更詳細(xì)的玩法評(píng)測(cè)。

　　當(dāng)然，炸場(chǎng)的不只是OpenAI，在這個(gè)被稱為全球“AI月”的5月，肉眼可見地，我們還將迎來(lái)谷歌的I/O開發(fā)者大會(huì)、微軟Build年度開發(fā)者大會(huì)、英偉達(dá)一季報(bào)發(fā)布等AI領(lǐng)域重要事件。

　　此外，預(yù)計(jì)6月10日舉辦的蘋果WWDC大會(huì)或?qū)⑼瞥鋈翧I應(yīng)用商店，并可能升級(jí)Siri語(yǔ)音助手，引入新的生成式AI系統(tǒng)。

　　試猜想，如果蘋果真的順利與OpenAI達(dá)成合作，GPT-4o被引入到iPhone設(shè)備端，取代(或升級(jí))Siri，似乎也是順理成章的事。

　　總的來(lái)說(shuō)，相比圖形用戶界面，GPT-4o近乎實(shí)時(shí)的語(yǔ)音和視頻交互體驗(yàn)，標(biāo)志著人機(jī)交互迎來(lái)了新的變革，更自然、更直觀的交互體驗(yàn)，已經(jīng)非常接近我們?cè)诳苹闷锟吹降娜斯ぶ悄�，斯派�?middot;瓊斯導(dǎo)演的科幻電影《Her》也因此被頻頻提及。

　　獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛甚至連夜錄制視頻夸OpenAI在“大家都在拼大模型的參數(shù)和性能時(shí)，OpenAI殺了個(gè)回馬槍，認(rèn)真地做起了整合和應(yīng)用”。

　　看完今天OpenAI的發(fā)布，很難想象谷歌明天得拿出多大的殺手锏，才能擺脫“AI屆汪峰”的命運(yùn)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信