行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國(guó)顛覆性技術(shù)創(chuàng)新大賽最高獎(jiǎng)OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來(lái)「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場(chǎng)又出黑馬!TCL同檔Mini LED音畫王P12K,萬(wàn)象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國(guó)企業(yè)科創(chuàng)力研究報(bào)告(2024)》美團(tuán)年度報(bào)告竟然用上了AI和短。窟@下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來(lái)自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級(jí)自動(dòng)泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計(jì):看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)林杰:未來(lái) A 級(jí)、A0 級(jí)、A00 級(jí)車型都將是領(lǐng)克純電的“主場(chǎng)”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬(wàn)象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂(lè)年度聽歌報(bào)告發(fā)布:誰(shuí)是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁(yè)技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫的應(yīng)許之地?
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場(chǎng)!

    2024年05月14日 09:48:43   來(lái)源:頭號(hào)AI玩家公眾號(hào)

      OpenAI真憋了個(gè)大的。

      美國(guó)當(dāng)?shù)貢r(shí)間5月13日上午10點(diǎn)(北京時(shí)間5月14日凌晨1點(diǎn)),OpenAI春季發(fā)布會(huì)如約而至,沒有GPT-5,沒有搜索引擎,但推出了一個(gè)新的旗艦?zāi)P?GPT-4o。

      “o”是Omni的縮寫,意為“全能”,接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出。

      從直播演示來(lái)看,GPT-4o的多模態(tài)、實(shí)時(shí)交互能力,已經(jīng)足夠驚艷到讓人直呼科幻電影《her》真的變成了現(xiàn)實(shí)。

      值得劃重點(diǎn)的是,GPT-4o和ChatGPT Plus會(huì)員版所有的能力,將免費(fèi)向所有用戶開放!

      不過(guò),GPT-4o的新語(yǔ)音模式在未來(lái)幾周內(nèi)會(huì)優(yōu)先對(duì)ChatGPT Plus會(huì)員開放。

      此外,GPT-4o也向開發(fā)者開放了API。與GPT-4Turbo相比,GPT-4o價(jià)格減半,但速度卻快了2倍,速率限制高出5倍。OpenAI稱,接下來(lái)會(huì)向部分API合作伙伴提供新的音頻和視頻功能支持。

      GPT-4o到底有多強(qiáng)?昨晚“頭號(hào)AI玩家”全程圍觀直播,現(xiàn)在讓我們來(lái)一起回顧下其中細(xì)節(jié)。

      GPT-4o驚艷面世,

      核心能力全盤點(diǎn)

      01.零延遲實(shí)時(shí)語(yǔ)音交互,自然真實(shí)富有情感

      首先是零延遲實(shí)時(shí)語(yǔ)音交互,在這個(gè)環(huán)節(jié),GPT表現(xiàn)得像是富有情感的真人。

      在直播演示過(guò)程中,演示者M(jìn)ark對(duì)GPT-4o說(shuō):“我正在做demo,我有點(diǎn)緊張。”然后他開始故意喘息得非常急促,GPT-4o很快識(shí)別出了他的呼吸聲,告訴他:“哦,哦,哦,別緊張,慢下來(lái),你不是個(gè)吸塵器。”并指導(dǎo)他調(diào)整呼吸。

      整個(gè)過(guò)程中,GPT-4o的語(yǔ)氣都非常自然、真實(shí)、富有情感,你可以隨時(shí)打斷它,要求它調(diào)整語(yǔ)氣和音調(diào)。

      另一位演示者讓GPT-4o講一個(gè)關(guān)于“機(jī)器人與愛”的睡前故事。剛講一句,Mark Chen就打斷了它,說(shuō)它講故事的語(yǔ)氣不夠有情感。GPT-4o調(diào)整過(guò)后,Mark Chen又很快打斷它,要求它情緒再飽滿再drama一點(diǎn),然后GPT-4o的情緒又上了一個(gè)臺(tái)階,甚至可以說(shuō)是浮夸的程度。

      然后,演示者要求它切換成機(jī)器人聲音,GPT-4o的聲音和語(yǔ)氣立馬變得冷漠和機(jī)械。

      這還沒完,演示者又讓GPT-4o用唱歌的方式把故事講完,GPT-4o當(dāng)場(chǎng)把故事改編成了一首歌,并直接唱了出來(lái),節(jié)目效果拉滿。

      相比之下,ChatGPT的語(yǔ)音模式平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4),這無(wú)疑會(huì)破壞對(duì)話的沉浸感。

      此外,由于模型需要先將語(yǔ)音轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收處理并輸出文本,再將文本轉(zhuǎn)換為語(yǔ)音,所以GPT-3.5或GPT-4無(wú)法直接獲知語(yǔ)氣、音調(diào)、背景噪音等信息,也無(wú)法輸出笑聲、歌聲或表達(dá)情感。

      02.通過(guò)攝像頭視覺傳達(dá)內(nèi)容,在線解方程式

      除了語(yǔ)音交互外,還可以通過(guò)視覺+語(yǔ)音的形式,如實(shí)時(shí)視頻、上傳圖片等方式,與GPT-4o進(jìn)行多模態(tài)交互。

      發(fā)布會(huì)上,OpenAI展示了GPT-4o通過(guò)多模態(tài)能力幫助用戶解決數(shù)學(xué)題的完整過(guò)程。

      視覺解析圖形報(bào)表也手到擒來(lái)。OpenAI官方博客中,用戶一邊和GPT-4o語(yǔ)音,一邊在平板上畫圖,根據(jù)語(yǔ)音信息,解幾何數(shù)學(xué)題。

      03.更智能的保姆級(jí)編程助手

      用GPT-4o來(lái)實(shí)時(shí)編程,也比以前的純文本形式或上傳圖片進(jìn)行文字對(duì)話的方式,更有交互感。

      官方演示中, OpenAI使用電腦桌面端GPT-4o來(lái)檢查代碼,它不僅可以解釋代碼的作用,還可以告訴用戶如果調(diào)整特定代碼會(huì)發(fā)生什么。

      通過(guò)一步又一步的實(shí)時(shí)問(wèn)答溝通,GPT-4o可以幫助用戶提高編程效率,整個(gè)過(guò)程相當(dāng)絲滑。

      超強(qiáng)的實(shí)時(shí)語(yǔ)音+視覺交互能力,運(yùn)用在編程輔助上,以后還要啥程序員鼓勵(lì)師。

      04.視頻通話,實(shí)時(shí)分析面部情緒

      演示者還在X上實(shí)時(shí)收集了網(wǎng)友的反饋,其中有人提出挑戰(zhàn):打開攝像頭,看GPT-4o能不能實(shí)時(shí)分析面部情緒。

      演示者先是打開了后置攝像頭,拍到的是面前的桌子,GPT-4o立刻分析道:“你看起來(lái)是個(gè)桌子。”

      在切換為前置攝影頭后,演示者的臉出現(xiàn)在與GPT-4o進(jìn)行交互的界面,一整個(gè)打視頻電話的即視感。

      GPT-4o立刻說(shuō):“你看起來(lái)非常開心,有大大的笑容,你想分享一下讓你這么開心的原因嗎?”語(yǔ)氣中甚至能聽出一絲好奇和試探。

      演示者回答道:“因?yàn)槲以谧鰧?shí)時(shí)演示,讓大家看看你有多出色。”

      GPT-4o帶著笑聲說(shuō):“拜托,別害我臉紅了。”

      看到這,“頭號(hào)AI玩家”腦海里不禁回響起Samantha與Theodore之間的戀人絮語(yǔ)。

      《Her》真的變成現(xiàn)實(shí)了。

      05.同聲傳譯,支持多國(guó)語(yǔ)言

      目前,ChatGPT支持超過(guò)50種語(yǔ)言。據(jù)介紹,GPT-4o的語(yǔ)言能力在質(zhì)量和速度上都得到了改進(jìn)。

      官方演示中,一個(gè)人說(shuō)英語(yǔ),另一個(gè)人說(shuō)西班牙語(yǔ),通過(guò)語(yǔ)音指示GPT-4o實(shí)時(shí)翻譯,兩人實(shí)現(xiàn)了流暢的溝通。GPT-4o基本上只在開頭停頓了1~2秒,在句子中沒有出現(xiàn)停頓、卡殼等現(xiàn)象。

      不過(guò),有點(diǎn)bug的是,由于GPT-4o是中間的溝通媒介,導(dǎo)致兩位對(duì)話者并沒有直接看對(duì)方,而是都看向了手機(jī)。未來(lái)或許會(huì)有新型設(shè)備出現(xiàn),利用AI技術(shù)讓使用不同語(yǔ)言的人們能夠更自然地進(jìn)行交流。

      變革人機(jī)交互,

      但還不是GPT-5

      OpenAI首席技術(shù)官M(fèi)ira Murati在直播中介紹,GPT-4o是標(biāo)志性產(chǎn)品GPT-4模型的一個(gè)迭代版本:提供了GPT-4級(jí)別的智能,但速度更快,并改進(jìn)了其在文本、語(yǔ)音和視覺方面的能力。

      OpenAI首席執(zhí)行官Sam Altman發(fā)帖稱該模型是“原生多模態(tài)”的,在文本、視覺和音頻上端到端地訓(xùn)練了一個(gè)新模型,GPT-4o所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

      根據(jù)官方博客介紹,在基準(zhǔn)測(cè)試中,GPT-4o在文本、推理和編碼智能方面達(dá)到了GPT-4Turbo級(jí)別的性能,同時(shí)在多語(yǔ)言、音頻和視覺能力上設(shè)定了新的標(biāo)準(zhǔn)。

      OpenAI計(jì)劃在未來(lái)幾周內(nèi)逐步推出GPT-4o的各項(xiàng)能力。其中,文本和圖像能力將從發(fā)布會(huì)后當(dāng)天開始在ChatGPT中推出,Plus用戶可以搶先體驗(yàn),并擁有相比免費(fèi)用戶多高達(dá)5倍的消息限制。帶有GPT-4o新版本語(yǔ)音模式也將在未來(lái)幾周內(nèi)在ChatGPT Plus中推出。

      針對(duì)免費(fèi)用戶,OpenAI也主打一個(gè)“雨露均沾”,在接下來(lái)的幾周內(nèi)會(huì)面向所有用戶,推出GPT-4o及其相關(guān)功能:

      1.體驗(yàn)GPT-4級(jí)智能

      2.從模型和網(wǎng)頁(yè)獲取響應(yīng)(聯(lián)網(wǎng)了)

      3.分析數(shù)據(jù)并創(chuàng)建圖表

      4.支持上傳照片進(jìn)行交互

      5.上傳文件以幫助總結(jié)、撰寫或分析

      6.發(fā)現(xiàn)和使用GPT和GPT商店

      7.可自定義控制的ChatGPT“內(nèi)存”(擁有更強(qiáng)的“記憶力”)

      目前已經(jīng)體驗(yàn)到GPT-4o的玩家告訴我們:體驗(yàn)太絲滑了!后續(xù)“頭號(hào)AI玩家”也將跟進(jìn)更詳細(xì)的玩法評(píng)測(cè)。

      當(dāng)然,炸場(chǎng)的不只是OpenAI,在這個(gè)被稱為全球“AI月”的5月,肉眼可見地,我們還將迎來(lái)谷歌的I/O開發(fā)者大會(huì)、微軟Build年度開發(fā)者大會(huì)、英偉達(dá)一季報(bào)發(fā)布等AI領(lǐng)域重要事件。

      此外,預(yù)計(jì)6月10日舉辦的蘋果WWDC大會(huì)或?qū)⑼瞥鋈翧I應(yīng)用商店,并可能升級(jí)Siri語(yǔ)音助手,引入新的生成式AI系統(tǒng)。

      試猜想,如果蘋果真的順利與OpenAI達(dá)成合作,GPT-4o被引入到iPhone設(shè)備端,取代(或升級(jí))Siri,似乎也是順理成章的事。

      總的來(lái)說(shuō),相比圖形用戶界面,GPT-4o近乎實(shí)時(shí)的語(yǔ)音和視頻交互體驗(yàn),標(biāo)志著人機(jī)交互迎來(lái)了新的變革,更自然、更直觀的交互體驗(yàn),已經(jīng)非常接近我們?cè)诳苹闷锟吹降娜斯ぶ悄,斯派?middot;瓊斯導(dǎo)演的科幻電影《Her》也因此被頻頻提及。

      獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛甚至連夜錄制視頻夸OpenAI在“大家都在拼大模型的參數(shù)和性能時(shí),OpenAI殺了個(gè)回馬槍,認(rèn)真地做起了整合和應(yīng)用”。

      看完今天OpenAI的發(fā)布,很難想象谷歌明天得拿出多大的殺手锏,才能擺脫“AI屆汪峰”的命運(yùn)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。