首頁 > 云計算頻道 > 大模型

OpenAI的加強版“Her”正式開放，壓過了Gemini的“生產(chǎn)級”大升級

2024年09月25日 11:00:29 來源：Citnews中文科技資訊

　　今天真是AI圈久違了的熱鬧一天啊!

　　昨天剛被奧特曼發(fā)的那篇AI小作文搞得一頭霧水，現(xiàn)在他這波操作的意圖就呼之欲出了。

　　奧特曼想臨門狙擊的正是宿敵Google，更確切地說，是Google今天剛剛更新的兩款升級版Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

　　狙擊方式簡單粗暴：直接宣布萬眾期待的GPT語音功能今天起正式開放。

　　兩個小時不到，就雙叒搶走了Google好不容易的高光時刻。我要是Google我得氣吐血吧。

　　GPT高級語音來了，會 50 多種語言

　　OpenAI稱，ChatGPT的高級語音模式(Advanced Voice Mode)將在本周內(nèi)逐步向所有Plus和團隊用戶推出。

　　在人們耐心等待的同時，團隊完善了部分功能，包括新增自定義指令、記憶功能、 5 種新聲音，并改進了口音。

　　由于實在被大家念叨了太久，OpenAI特別表示了一下：“它能用 50 多種語言說出’抱歉，我遲到了‘。”

　　并且放了一個從英文切換到普通話的示例：“奶奶對不起，我遲到了。我不是故意讓您等這么久的，我可以怎么補償您呢?”

　　——好家伙，這一下子都當(dāng)上GPT的奶奶輩了，硬逼著我原諒你啊。

　　，時長00:44視頻中可以看到，語音模式現(xiàn)在以一個跳動的藍(lán)色球體表示，而不是OpenAI在 5 月展示技術(shù)時使用的黑色動畫點。

　　當(dāng)獲得訪問權(quán)限時，應(yīng)用內(nèi)會彈出一個提示。先是對Plus和Teams層級用戶開通，下周起擴展到企業(yè)和教育用戶。

　　ChatGPT還添加了五種新語音以供體驗：Arbor、Maple、Sol、Spruce和Vale。至此，加上之前的Breeze、Juniper、Cove和Ember，ChatGPT的語音總數(shù)已達(dá)到了 9 種(Google的Gemini Live語音數(shù)量為 10 種)。

　　可能你也注意到了，這些名字都是從大自然中汲取靈感的，從“楓樹”、“微風(fēng)”到“太陽”、“山谷”，也許是為了讓使用感覺更加自然。一個缺席的聲音是Sky，也是OpenAI在春季發(fā)布會時展示的語音，因涉及與電影《Her》主演斯嘉麗·約翰遜的法律爭議而下架。

　　，時長00:40OpenAI還將ChatGPT的一些定制功能擴展到了高級語音模式，包括允許用戶個性化回應(yīng)的「自定義指令」功能，以及允許ChatGPT記住對話供以后參考的記憶功能。

　　比如下面視頻里，在系統(tǒng)設(shè)置的自定義ChatGPT菜單中，輸入 “我的名字是夏洛特，我住在舊金山灣區(qū)。”再詢問周末戶外活動時，GPT就會以夏洛特稱呼用戶，提供符合本地天氣和交通的建議。

　　，時長02:24OpenAI稱團隊改進了部分外語中的響應(yīng)速度、流暢性以及口音。語音會根據(jù)對話語氣進行調(diào)整，你可以創(chuàng)建場景，提示它扮演不同的角色。聲音延遲非常低，理解力也更強，真的像是和另一個人自然對話。

　　不過OpenAI四個月前展示過的視頻和屏幕共享功能此次并未更新。當(dāng)時工作人員向GPT詢問紙上的數(shù)學(xué)題和電腦屏幕上的代碼，通過自然語音對話獲得了實時解答。目前，OpenAI尚未提供這項多模態(tài)功能的推出時間表。

　　此外高級語音模式也暫時不對歐盟、英國、瑞士、冰島、挪威和列支敦士登等地區(qū)開放。

　　盡管如此，終于能親自上手OpenAI版的“her”，對已經(jīng)混AI圈混到審美疲勞的人們來說，確實算一件值得興奮的事了。加上才制造了一波熱潮的o1-preview，OpenAI又妥妥硬控業(yè)界一周。

　　這一激動也把大伙兒整地間歇性失憶了：

　　話說Google今天是發(fā)了個啥來著?

　　Gemini 1.5 升級兩款新模型，價格減半，速率提升

　　Google這次的更新其實也很重磅，至少對于開發(fā)者來說。

　　根據(jù)Google Blog，這次他們更新了兩個生產(chǎn)級Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。所謂“生產(chǎn)級”，是指AI模型經(jīng)過了充分的開發(fā)、測試和優(yōu)化，已準(zhǔn)備好商業(yè)化部署，能處理大量用戶請求、應(yīng)用于產(chǎn)品服務(wù)中，而不僅僅是用于實驗或研究。

　　作為今年 5 月I/O大會亮相的Gemini 1. 5 系列模型的重大升級，新模型更快、更強大，也更具成本效益。

　　主要亮點概括為：

　　1. 價格大幅降低：1.5 Pro的輸入和輸出價格下降約50%，大幅降低了構(gòu)建成本，尤其是對小于128K token的提示。

　　2. 整體質(zhì)量改進：尤其在數(shù)學(xué)、代碼生成、長文本上下文和視覺任務(wù)上的性能提升顯著，包括在MATH、HiddenMath等基準(zhǔn)測試中提高約20%，視覺和代碼應(yīng)用提高2%-7%。

　　3. 速率限制提高：1.5 Flash和1.5 Pro的速率限制分別從每分鐘1000RPM(Requests Per Minute)和360RPM提高至每分鐘2000 RPM和1000 RPM，使開發(fā)者能夠更快構(gòu)建和處理任務(wù)。

　　4. 更快輸出和更低延遲：輸出速度提升 2 倍，延遲降低 3 倍，為更高效的應(yīng)用場景提供支持。

　　5. 更簡潔的響應(yīng)：響應(yīng)風(fēng)格更簡潔、成本更低，輸出長度縮短5%-20%，同時在許多話題上減少了拒絕和回避的次數(shù)，并保持高有用性。

　　6. 多模態(tài)和長上下文支持：1.5 Pro的 200 萬token長上下文窗口支持處理長文本和多模態(tài)任務(wù)，如 1000 頁PDF或長視頻的內(nèi)容生成。

　　7. 更新的過濾設(shè)置：模型的默認(rèn)安全過濾器不再自動應(yīng)用，開發(fā)者可以根據(jù)需要定制模型的安全設(shè)置。

　　開發(fā)者可以通過Google AI Studio和Gemini API免費訪問這兩個最新模型。大型組織和Google Cloud客戶也可在Vertex AI上使用新模型。

　　籠罩在GPT陰影下的Gemini

　　但在同行對比下，不少普通用戶對Google這次動作表達(dá)了失望，覺得這甚至算不上真正意義的“發(fā)布”。

　　Abacus.AI CEO、知名博主Bindu Reddy說，“唉，OpenAI發(fā)布了通過智商測試的o1，而Google只是對Gemini 1. 5 進行了一些小更新。他們擁有 100 倍的資源、 10 倍的人才和 10 倍的所有東西，怎么會這樣呢?”

　　盡管開發(fā)者中還是有些人為Google說話，比如Reddit討論區(qū)就有網(wǎng)友表示：

　　“對于那些實際在構(gòu)建應(yīng)用并試圖降低成本、增加利潤的人來說，這些都是有用的東西。我正在做的應(yīng)用有一個每次操作的固定成本，由token長度決定，這讓我的利潤提高了大約30%以上。這對大多數(shù)人來說可能沒什么意思。我知道很多人會因為谷歌的這個“公告”而生氣——但實際上這對開發(fā)人員來說是一個不錯的更新。”

　　價格對半砍、速率提升、延遲降低，這些確實正中開發(fā)者下懷。但正如大家所說，吸引力也許僅限于開發(fā)者群體了。

　　甚至連一些開發(fā)者也嗤之以鼻：“我沒看到跟Claude或o1 的比較，而我們馬上就要迎來下一代OpenAI和Anthropic模型。DeepMind其實擁有遠(yuǎn)超目前的模型，但他們在走直接面向企業(yè)的路線，繞過了大眾。Gemini令人印象深刻嗎?完全不，簡直令人失望透頂。”

　　Google對于模型的糟糕命名也被網(wǎng)友群嘲，認(rèn)為其冗長且易混淆。

　　The Information近期發(fā)布了一篇名為《Why AI Developers Are Skipping Google’s Gemini》的文章。其中通過對多位AI公司創(chuàng)始人和Google內(nèi)部員工的采訪，講述了Gemini如何被開發(fā)者“拋棄”，在追趕ChatGPT時遇到的阻滯和困境。

　　比如，相比競爭對手的技術(shù)，調(diào)用Gemini對于開發(fā)者和企業(yè)來說過于復(fù)雜。Topology創(chuàng)始人Aidan McLaughlin表示，他首次使用OpenAI的API僅用了 30 秒，而使用Gemini則花了 4 個小時。同時Google的大模型性能卻排在OpenAI和Anthropic之后，并不值得他跨過這些障礙。

　　相較于ChatGPT，Gemini在開發(fā)者中的不受歡迎似乎是現(xiàn)實世界公開的秘密。

　　企業(yè)軟件初創(chuàng)公司Retool在 6 月份對 750 多名科技員工進行的調(diào)查發(fā)現(xiàn)，僅有2.6%的受訪者表示他們最常使用Gemini來構(gòu)建AI應(yīng)用，超過76%的人選擇使用GPT。

　　Similarweb追蹤的網(wǎng)站流量數(shù)據(jù)顯示， 6 月至 8 月期間，OpenAI的應(yīng)用開發(fā)者頁面訪問量達(dá) 8280 萬次，而谷歌的頁面訪問量為 840 萬次。

　　較小的非正式調(diào)查也提供了類似的證據(jù)。上月底，F(xiàn)inetune的創(chuàng)始人Julian Saks向他在舊金山聯(lián)合辦公空間的 50 名AI初創(chuàng)企業(yè)開發(fā)者詢問他們最常使用的對話式AI模型。幾乎所有人都表示，他們主要使用的是Anthropic或OpenAI的模型，沒有人提起Gemini。

　　盡管Gemini模型在分析長文檔或長代碼庫時非常有用，但許多開發(fā)者表示，谷歌的模型選項種類繁多，步驟復(fù)雜，開發(fā)者系統(tǒng)也與OpenAI的不同，更難使用。并且有時，Google提供的不同服務(wù)還會在它自己的搜索結(jié)果中互相競爭，使得人們在試圖搞清楚這些工具時很容易被“絆住”。

　　Gemini因此經(jīng)常在X上被嘲笑。安全初創(chuàng)公司Xbow的AI研究員Brendan Dolan-Gavitt本月早些時候發(fā)了一條推文，詳細(xì)介紹了他通過Vertex開始使用Gemini所需的眾多步驟，迅速走紅。其他開發(fā)者紛紛評論區(qū)表示同情。

　　在一個“世界上領(lǐng)先的工程師都在使用OpenAI、Claude或Cursor”的環(huán)境中，開發(fā)者們確實沒有必要再去嘗試其它。而反過來說，使用量的走低又無法讓Gemini獲得ChatGPT一樣多的數(shù)據(jù)反饋，致使Google在改進模型上會面臨更模糊的路線圖。

　　失望是因為人們對Google期待很高

　　Google正試圖改變這種看法，包括通過在X上回應(yīng)對Gemini的批評，將更多OpenAI等公司的明星技術(shù)專家納入麾下、將部分重疊的開發(fā)功能合并等。他們還通過舉辦開發(fā)者活動來宣傳Gemini。

　　今天與Gemini-1.5-Pro- 002 推出同步進行的，還有一場Gemini for Work的線上活動，Google花了大量篇幅宣講Gemini目前在Best Buy、Snap、UPS Capital、Wayfair等公司的應(yīng)用案例。據(jù)悉，他們正試圖通過提供一定程度的“白手套”服務(wù)來拉攏更多大企業(yè)客戶。

　　只是在根深蒂固的市場份額面前，Google的反擊之路可能沒那么好走。

　　AI Studio的產(chǎn)品負(fù)責(zé)人Logan Kilpatrick今年 4 月加入前曾于OpenAI負(fù)責(zé)開發(fā)者關(guān)系，他表示：“實際情況是，OpenAI在LLM API開發(fā)者工具方面領(lǐng)先于谷歌。我們必須與他們當(dāng)前在開發(fā)者中根深蒂固的市場份額作斗爭。”

　　稍早前AI圈知名博主Rowan Cheung曾預(yù)告，自己完成了一個關(guān)于AI模型重大升級的采訪，今天開發(fā)者們將迎來一個大日子。

　　那篇推文下面，Logan Kilpatrick的笑臉字符表情在一大片“怎么不是Claude Opus 3.5”的遺憾聲中略顯尷尬。

　　保守、爭議、滯后是今天Google這位AI巨頭給社區(qū)留下的刻板印象。Gemini-1.5-Pro- 002 的推出似乎也并未打破這一僵局。

　　人們對這家公司的失望，都是來自對它的期待很高：這么強的實力和人才儲備，卻無法給世界更多的“替代”OpenAI的選項，誰都會感到遺憾。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信