• 首頁 > 云計算頻道 > 大模型

    OpenAI的加強(qiáng)版“Her”正式開放,壓過了Gemini的“生產(chǎn)級”大升級

    2024年09月25日 11:00:29   來源:Citnews中文科技資訊

      今天真是AI圈久違了的熱鬧一天啊!

      昨天剛被奧特曼發(fā)的那篇AI小作文搞得一頭霧水,現(xiàn)在他這波操作的意圖就呼之欲出了。

      奧特曼想臨門狙擊的正是宿敵Google,更確切地說,是Google今天剛剛更新的兩款升級版Gemini模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

      狙擊方式簡單粗暴:直接宣布萬眾期待的GPT語音功能今天起正式開放。

      兩個小時不到,就雙叒搶走了Google好不容易的高光時刻。我要是Google我得氣吐血吧。

      GPT高級語音來了,會 50 多種語言

      OpenAI稱,ChatGPT的高級語音模式(Advanced Voice Mode)將在本周內(nèi)逐步向所有Plus和團(tuán)隊用戶推出。

      在人們耐心等待的同時,團(tuán)隊完善了部分功能,包括新增自定義指令、記憶功能、 5 種新聲音,并改進(jìn)了口音。

      由于實(shí)在被大家念叨了太久,OpenAI特別表示了一下:“它能用 50 多種語言說出’抱歉,我遲到了‘。”

      并且放了一個從英文切換到普通話的示例:“奶奶對不起,我遲到了。我不是故意讓您等這么久的,我可以怎么補(bǔ)償您呢?”

      ——好家伙,這一下子都當(dāng)上GPT的奶奶輩了,硬逼著我原諒你啊。

      ,時長00:44視頻中可以看到,語音模式現(xiàn)在以一個跳動的藍(lán)色球體表示,而不是OpenAI在 5 月展示技術(shù)時使用的黑色動畫點(diǎn)。

      當(dāng)獲得訪問權(quán)限時,應(yīng)用內(nèi)會彈出一個提示。先是對Plus和Teams層級用戶開通,下周起擴(kuò)展到企業(yè)和教育用戶。

      ChatGPT還添加了五種新語音以供體驗(yàn):Arbor、Maple、Sol、Spruce和Vale。至此,加上之前的Breeze、Juniper、Cove和Ember,ChatGPT的語音總數(shù)已達(dá)到了 9 種(Google的Gemini Live語音數(shù)量為 10 種)。

      可能你也注意到了,這些名字都是從大自然中汲取靈感的,從“楓樹”、“微風(fēng)”到“太陽”、“山谷”,也許是為了讓使用感覺更加自然。一個缺席的聲音是Sky,也是OpenAI在春季發(fā)布會時展示的語音,因涉及與電影《Her》主演斯嘉麗·約翰遜的法律爭議而下架。

      ,時長00:40OpenAI還將ChatGPT的一些定制功能擴(kuò)展到了高級語音模式,包括允許用戶個性化回應(yīng)的「自定義指令」功能,以及允許ChatGPT記住對話供以后參考的記憶功能。

      比如下面視頻里,在系統(tǒng)設(shè)置的自定義ChatGPT菜單中,輸入 “我的名字是夏洛特,我住在舊金山灣區(qū)。”再詢問周末戶外活動時,GPT就會以夏洛特稱呼用戶,提供符合本地天氣和交通的建議。

      ,時長02:24OpenAI稱團(tuán)隊改進(jìn)了部分外語中的響應(yīng)速度、流暢性以及口音。語音會根據(jù)對話語氣進(jìn)行調(diào)整,你可以創(chuàng)建場景,提示它扮演不同的角色。聲音延遲非常低,理解力也更強(qiáng),真的像是和另一個人自然對話。

      不過OpenAI四個月前展示過的視頻和屏幕共享功能此次并未更新。當(dāng)時工作人員向GPT詢問紙上的數(shù)學(xué)題和電腦屏幕上的代碼,通過自然語音對話獲得了實(shí)時解答。目前,OpenAI尚未提供這項(xiàng)多模態(tài)功能的推出時間表。

      此外高級語音模式也暫時不對歐盟、英國、瑞士、冰島、挪威和列支敦士登等地區(qū)開放。

      盡管如此,終于能親自上手OpenAI版的“her”,對已經(jīng)混AI圈混到審美疲勞的人們來說,確實(shí)算一件值得興奮的事了。加上才制造了一波熱潮的o1-preview,OpenAI又妥妥硬控業(yè)界一周。

      這一激動也把大伙兒整地間歇性失憶了:

      話說Google今天是發(fā)了個啥來著?

      Gemini 1.5 升級兩款新模型,價格減半,速率提升

      Google這次的更新其實(shí)也很重磅,至少對于開發(fā)者來說。

      根據(jù)Google Blog,這次他們更新了兩個生產(chǎn)級Gemini模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。所謂“生產(chǎn)級”,是指AI模型經(jīng)過了充分的開發(fā)、測試和優(yōu)化,已準(zhǔn)備好商業(yè)化部署,能處理大量用戶請求、應(yīng)用于產(chǎn)品服務(wù)中,而不僅僅是用于實(shí)驗(yàn)或研究。

      作為今年 5 月I/O大會亮相的Gemini 1. 5 系列模型的重大升級,新模型更快、更強(qiáng)大,也更具成本效益。

      主要亮點(diǎn)概括為:

      1. 價格大幅降低:1.5 Pro的輸入和輸出價格下降約50%,大幅降低了構(gòu)建成本,尤其是對小于128K token的提示。

      2. 整體質(zhì)量改進(jìn):尤其在數(shù)學(xué)、代碼生成、長文本上下文和視覺任務(wù)上的性能提升顯著,包括在MATH、HiddenMath等基準(zhǔn)測試中提高約20%,視覺和代碼應(yīng)用提高2%-7%。

      3. 速率限制提高:1.5 Flash和1.5 Pro的速率限制分別從每分鐘1000RPM(Requests Per Minute)和360RPM提高至每分鐘2000 RPM和1000 RPM,使開發(fā)者能夠更快構(gòu)建和處理任務(wù)。

      4. 更快輸出和更低延遲:輸出速度提升 2 倍,延遲降低 3 倍,為更高效的應(yīng)用場景提供支持。

      5. 更簡潔的響應(yīng):響應(yīng)風(fēng)格更簡潔、成本更低,輸出長度縮短5%-20%,同時在許多話題上減少了拒絕和回避的次數(shù),并保持高有用性。

      6. 多模態(tài)和長上下文支持:1.5 Pro的 200 萬token長上下文窗口支持處理長文本和多模態(tài)任務(wù),如 1000 頁P(yáng)DF或長視頻的內(nèi)容生成。

      7. 更新的過濾設(shè)置:模型的默認(rèn)安全過濾器不再自動應(yīng)用,開發(fā)者可以根據(jù)需要定制模型的安全設(shè)置。

      開發(fā)者可以通過Google AI Studio和Gemini API免費(fèi)訪問這兩個最新模型。大型組織和Google Cloud客戶也可在Vertex AI上使用新模型。

      1

      籠罩在GPT陰影下的Gemini

      但在同行對比下,不少普通用戶對Google這次動作表達(dá)了失望,覺得這甚至算不上真正意義的“發(fā)布”。

      Abacus.AI CEO、知名博主Bindu Reddy說,“唉,OpenAI發(fā)布了通過智商測試的o1,而Google只是對Gemini 1. 5 進(jìn)行了一些小更新。他們擁有 100 倍的資源、 10 倍的人才和 10 倍的所有東西,怎么會這樣呢?”

      盡管開發(fā)者中還是有些人為Google說話,比如Reddit討論區(qū)就有網(wǎng)友表示:

      “對于那些實(shí)際在構(gòu)建應(yīng)用并試圖降低成本、增加利潤的人來說,這些都是有用的東西。我正在做的應(yīng)用有一個每次操作的固定成本,由token長度決定,這讓我的利潤提高了大約30%以上。這對大多數(shù)人來說可能沒什么意思。我知道很多人會因?yàn)楣雀璧倪@個“公告”而生氣——但實(shí)際上這對開發(fā)人員來說是一個不錯的更新。”

      價格對半砍、速率提升、延遲降低,這些確實(shí)正中開發(fā)者下懷。但正如大家所說,吸引力也許僅限于開發(fā)者群體了。

      甚至連一些開發(fā)者也嗤之以鼻:“我沒看到跟Claude或o1 的比較,而我們馬上就要迎來下一代OpenAI和Anthropic模型。DeepMind其實(shí)擁有遠(yuǎn)超目前的模型,但他們在走直接面向企業(yè)的路線,繞過了大眾。Gemini令人印象深刻嗎?完全不,簡直令人失望透頂。”

      Google對于模型的糟糕命名也被網(wǎng)友群嘲,認(rèn)為其冗長且易混淆。

      The Information近期發(fā)布了一篇名為《Why AI Developers Are Skipping Google’s Gemini》的文章。其中通過對多位AI公司創(chuàng)始人和Google內(nèi)部員工的采訪,講述了Gemini如何被開發(fā)者“拋棄”,在追趕ChatGPT時遇到的阻滯和困境。

      比如,相比競爭對手的技術(shù),調(diào)用Gemini對于開發(fā)者和企業(yè)來說過于復(fù)雜。Topology創(chuàng)始人Aidan McLaughlin表示,他首次使用OpenAI的API僅用了 30 秒,而使用Gemini則花了 4 個小時。同時Google的大模型性能卻排在OpenAI和Anthropic之后,并不值得他跨過這些障礙。

      相較于ChatGPT,Gemini在開發(fā)者中的不受歡迎似乎是現(xiàn)實(shí)世界公開的秘密。

      企業(yè)軟件初創(chuàng)公司Retool在 6 月份對 750 多名科技員工進(jìn)行的調(diào)查發(fā)現(xiàn),僅有2.6%的受訪者表示他們最常使用Gemini來構(gòu)建AI應(yīng)用,超過76%的人選擇使用GPT。

      Similarweb追蹤的網(wǎng)站流量數(shù)據(jù)顯示, 6 月至 8 月期間,OpenAI的應(yīng)用開發(fā)者頁面訪問量達(dá) 8280 萬次,而谷歌的頁面訪問量為 840 萬次。

      較小的非正式調(diào)查也提供了類似的證據(jù)。上月底,F(xiàn)inetune的創(chuàng)始人Julian Saks向他在舊金山聯(lián)合辦公空間的 50 名AI初創(chuàng)企業(yè)開發(fā)者詢問他們最常使用的對話式AI模型。幾乎所有人都表示,他們主要使用的是Anthropic或OpenAI的模型,沒有人提起Gemini。

      盡管Gemini模型在分析長文檔或長代碼庫時非常有用,但許多開發(fā)者表示,谷歌的模型選項(xiàng)種類繁多,步驟復(fù)雜,開發(fā)者系統(tǒng)也與OpenAI的不同,更難使用。并且有時,Google提供的不同服務(wù)還會在它自己的搜索結(jié)果中互相競爭,使得人們在試圖搞清楚這些工具時很容易被“絆住”。

      Gemini因此經(jīng)常在X上被嘲笑。安全初創(chuàng)公司Xbow的AI研究員Brendan Dolan-Gavitt本月早些時候發(fā)了一條推文,詳細(xì)介紹了他通過Vertex開始使用Gemini所需的眾多步驟,迅速走紅。其他開發(fā)者紛紛評論區(qū)表示同情。

      在一個“世界上領(lǐng)先的工程師都在使用OpenAI、Claude或Cursor”的環(huán)境中,開發(fā)者們確實(shí)沒有必要再去嘗試其它。而反過來說,使用量的走低又無法讓Gemini獲得ChatGPT一樣多的數(shù)據(jù)反饋,致使Google在改進(jìn)模型上會面臨更模糊的路線圖。

      1

      失望是因?yàn)槿藗儗oogle期待很高

      Google正試圖改變這種看法,包括通過在X上回應(yīng)對Gemini的批評,將更多OpenAI等公司的明星技術(shù)專家納入麾下、將部分重疊的開發(fā)功能合并等。他們還通過舉辦開發(fā)者活動來宣傳Gemini。

      今天與Gemini-1.5-Pro- 002 推出同步進(jìn)行的,還有一場Gemini for Work的線上活動,Google花了大量篇幅宣講Gemini目前在Best Buy、Snap、UPS Capital、Wayfair等公司的應(yīng)用案例。據(jù)悉,他們正試圖通過提供一定程度的“白手套”服務(wù)來拉攏更多大企業(yè)客戶。

      只是在根深蒂固的市場份額面前,Google的反擊之路可能沒那么好走。

      AI Studio的產(chǎn)品負(fù)責(zé)人Logan Kilpatrick今年 4 月加入前曾于OpenAI負(fù)責(zé)開發(fā)者關(guān)系,他表示:“實(shí)際情況是,OpenAI在LLM API開發(fā)者工具方面領(lǐng)先于谷歌。我們必須與他們當(dāng)前在開發(fā)者中根深蒂固的市場份額作斗爭。”

      稍早前AI圈知名博主Rowan Cheung曾預(yù)告,自己完成了一個關(guān)于AI模型重大升級的采訪,今天開發(fā)者們將迎來一個大日子。

      那篇推文下面,Logan Kilpatrick的笑臉字符表情在一大片“怎么不是Claude Opus 3.5”的遺憾聲中略顯尷尬。

      保守、爭議、滯后是今天Google這位AI巨頭給社區(qū)留下的刻板印象。Gemini-1.5-Pro- 002 的推出似乎也并未打破這一僵局。

      人們對這家公司的失望,都是來自對它的期待很高:這么強(qiáng)的實(shí)力和人才儲備,卻無法給世界更多的“替代”OpenAI的選項(xiàng),誰都會感到遺憾。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    唯品會雙11銷量前十品牌中有7個國貨品牌

    11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費(fèi)前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。