一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢真我14 Pro+開始提上日程:1.5K等深四微曲屏+潛望長焦穩(wěn)了消息稱本田和日產(chǎn)計劃明年6月前敲定合并協(xié)議 2026年8月成立控股公司凱迪拉克最新版OTA開啟推送,新增百度語音大模型和QQ音樂等應(yīng)用中國聯(lián)通11月5G套餐用戶凈增127.8萬戶5G確定性工業(yè)基站首商用,工業(yè)互聯(lián)網(wǎng)走上新高度李飛飛團(tuán)隊前瞻性研究 多模態(tài)AI模型初顯空間智能AI終于邁過這道檻!Livekit 開源模型精準(zhǔn)識別“你是否說完”!DeepSeek開源大模型開發(fā)者之一羅福莉?qū)⒓用诵∶?/a>廣汽詳解旗下首款復(fù)合翼飛行汽車 GOVY AirJet:最高飛行速度可達(dá) 250km/h清華大學(xué)聯(lián)合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創(chuàng)建音效家庭能源智聯(lián)自由 海辰儲能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroESOpenAI發(fā)布o(jì)3:AI 推理能力的重大突破,得分高達(dá)87.5%亞馬遜云科技推出Amazon Q Developer新功能小象超市,摸著美團(tuán)外賣出海E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團(tuán)大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 業(yè)界新聞

    谷歌I/O大會,眼花繚亂,但缺王炸

    2024年05月15日 20:35:13   來源:字母榜

      五月真熱鬧,OpenAI才開了春季發(fā)布會,谷歌I/O大會也如期召開了。

      實話實說,觀看主題演講直播的過程中,腦海不禁會浮現(xiàn)曾被谷歌內(nèi)部員工泄露的梗圖——谷歌AI產(chǎn)品和項目一個又一個不同又相似的名字令人頭大。

      主題演講的關(guān)鍵詞仍舊是AI,谷歌還自己在現(xiàn)場給出了提到“AI”的次數(shù),在120次以上。

      在萬眾矚目的AI領(lǐng)域,谷歌宣布了若干新消息。

      AI大模型升級了兩個,Gemini 1.5 Pro雙下文窗口拓展到200萬令牌、Gemini Nano增加多模態(tài)理解能力;新發(fā)布了三個,更輕更快的Gemini 1.5 Flash、新架下的Gemma 2.0,以及視覺語言模型PaliGemma。

      另有文生圖模型迭代至Imagen 3,還新發(fā)布了一個文生視頻模型Veo。

      AI的具體應(yīng)用延展上,谷歌這次憋了不少招。

      谷歌的核心產(chǎn)品搜索中,發(fā)布AI Overviews,加強版AI搜索摘要功能將率先上架美國。谷歌搜索中還將加入制定計劃、視頻搜索等多重AI驅(qū)動的功能。

      此外,Gemini還被塞進(jìn)谷歌照片以及即時通訊應(yīng)用Google Messages等產(chǎn)品中。

      讓人聯(lián)想到OpenAI才發(fā)布的GPT-4o的,是谷歌旨在打造未來通用AI助理的新項目Project Astra,以及Gemin的新功能Live。Gemini Live支持與AI語音聊天,年內(nèi)預(yù)計加入相機功能,和AI實時“視頻通話”。

      有點尷尬的是,在第三方拉流的直播間里,觀眾直呼“無聊”,并對眼花繚亂的名字感到困惑。CNET的評論員指出,谷歌需要精進(jìn)講故事的能力,而不是一上來就將各個部分盡數(shù)展開。

      A

      OpenAI趕在谷歌I/O大會前一天開春季發(fā)布會,原本盛傳的搜索產(chǎn)品沒來,但“人類級別響應(yīng)”的GPT-4o讓人一窺新一代AI助理大戰(zhàn)的輪廓。

      難以想象要是沒有OpenAI的狙擊,谷歌會有多開朗。

      本次谷歌I/O大會上,原本最具驚喜的也是AI助理方面的進(jìn)展。

      首先,谷歌公布了一個新項目,名為Project Astra。用谷歌Deepmind負(fù)責(zé)人哈薩比斯(Demis Hassabis)的話說,這是真正通向AGI的萬能助手項目。

      相比于谷歌上一代AI助手Google Assistant,Project Astra的AI助手模式多樣,且能實時交互。沒有煩人的喚醒詞,也沒有尷尬的延遲?茨闼,為你排憂解難。

      演示視頻中,用戶打開手機攝像頭,對準(zhǔn)任意物品,AI可以準(zhǔn)確說出物品的名稱,如“這是一個音響”。用戶可以實時視頻的同時,在屏幕上涂畫、進(jìn)一步向AI提問,如畫一個箭頭指向音響的某個部分,詢問是什么。當(dāng)用戶將鏡頭對準(zhǔn)窗外時,AI則直接根據(jù)景色猜測出用戶所在的地點。

      在攝像頭匆匆掃過場景的情況下,用戶求助“眼鏡放在哪兒”,助手準(zhǔn)確識別并回答“你的眼鏡在紅蘋果的旁邊”。

      去年12月,Gemini就曾發(fā)布通過視頻和AI互動的視頻,但事后承認(rèn)視頻經(jīng)過剪輯,谷歌為此沒少被戳脊梁骨。

      有意思的是,這次在演示視頻的一開頭,谷歌就鄭重承諾,視頻是實時、一次性拍攝的。

      不過,谷歌尚未針對Project Astra給出明確的時間線,只是含糊地表示今年晚些時候其中的一些功能將更新到Gemini及其他應(yīng)用中。

      谷歌在AI助手方面還有更看得見、摸得著的進(jìn)展——Gemini Live,也就是對Gemini產(chǎn)品進(jìn)行多模態(tài)功能拓展。Gemini Advanced用戶將可以用語音和Gemini進(jìn)行對話,對話更流暢自然,延遲更低,可以隨時打斷,預(yù)計夏天上線。谷歌還表示,今年年內(nèi)將加入相機功能,實現(xiàn)實時視頻。

      可以說這一次,谷歌被OpenAI精準(zhǔn)狙擊——GPT-4o不僅早一天發(fā)布,而且現(xiàn)場演示,未來幾周就會開放給全部用戶。

      B

      近日外界都在盛傳OpenAI將推出搜索類產(chǎn)品,與谷歌一戰(zhàn),但這樣的情況并沒有發(fā)生,而谷歌自己也已經(jīng)馬不停蹄地升級了谷歌搜索。

      搜索作為谷歌的核心產(chǎn)品,即將迎來一次大升級——搜索摘要功能AI Overview,同時包含多步推理功能Multi-Step Reasoning、在搜索中做計劃Planning in Search,以及用視頻提問Ask With Video。

      AI Overview,顧名思義,是指用戶鍵入文本、點擊搜索之后,出現(xiàn)在最上方的將是AI幫忙整理的信息摘要。其中包含用自然語言對搜索結(jié)果的總結(jié)和概括,以及推薦的鏈接。從前這被谷歌稱為“搜索生成式體驗(SGE)”。

      多步推理Multi-step reasoning則可以用來做計劃。當(dāng)用戶在搜索框鍵入“附近最好的瑜伽館”時,AI摘要會將附近瑜伽館依照評分、課程、距離等信息分類成塊,更清晰地展示給用戶。Planning in Search則允許用戶直接用谷歌搜索做計劃,如在搜索框中鍵入飲食計劃的需求,搜索引擎會給你自動生成一份。

      想要搜索商品的時候,AI同樣會發(fā)揮作用,在搜索框鍵入“有上下坡的五英里通勤自行車”,搜索引擎會在上方給出選購自行車的思路建議,并給出若干商品推薦。

      從一個又一個詳盡的演示不難看出,谷歌已經(jīng)下定決心重塑搜索體驗。

      不過,AI搜索在很多競品中都已經(jīng)被應(yīng)用,更有專做AI搜索的Perplexity.AI。谷歌對搜索體驗作出的重大升級,放在2024年的5月已經(jīng)不大能帶來新鮮感。

      應(yīng)用生態(tài)的其他新動作更像是補齊,如Gmail郵箱、Google Messages通訊、谷歌照片等,Gemini逐漸拓展到越來越多的谷歌應(yīng)用中,大有“Gemini無處不在”的態(tài)勢。

      C

      AI背后的模型,谷歌這次也是大手一揮,升級的升級,新發(fā)布的新發(fā)布,Gemini家族不斷壯大。

      三個月前發(fā)布的Gemini 1.5 Pro終于“發(fā)貨”了,即日起正式開放給訂閱了Gemini Advanced(類似ChatGPT Plus)的用戶。

      Gemini 1.5 Pro支持100萬token的上下文窗口,今年晚些時候?qū)黾拥?00萬token。更形象地說,升級后的Gemini 1.5 Pro能同時處理22小時音頻、2小時視頻、超過60000行代碼或140萬個單詞。

      新發(fā)布的模型中,Gemini 1.5 Flash原本有明星潛質(zhì),但被OpenAI狙擊。GPT-4o驅(qū)動的ChatGPT狙擊Project Astra和Gemini Live,GPT-4o狙擊Gemini Flash。

      Gemini 1.5 Flash主打更輕更快,反應(yīng)速度和效率是其主打特色,擁有多模態(tài)推理能力,擅長總結(jié)、聊天、圖像、文檔數(shù)據(jù)提取、視頻字幕等。但這些特點,顯然和GPT-4o撞車了。

      除此之外,谷歌的開源模型Gemma也發(fā)布了新版本,Gemma 2.0有270億參數(shù),并拓展出多模態(tài)版本PaliGemma。

      多模態(tài)生成式模型,谷歌在I/O大會上公布了三個,涵蓋圖像、音樂和視頻。

      文生圖模型谷歌此前就有,此次做了迭代,發(fā)布Imagen 3。Imagen 3對提示詞的理解更加準(zhǔn)確細(xì)致,可以生成更逼真的圖像。在演示中,Imagen3從一長段提示詞中提取了8個細(xì)節(jié)信息,并在生成的圖像中一一體現(xiàn)。

      音樂生成模型Music AI Sandbox是全新的,用戶可以用小段Demo拓展延長,也可以按照文本提示對音樂進(jìn)行再創(chuàng)作,改變和調(diào)整音樂風(fēng)格等。鑒于谷歌旗下還有YouTube等UGC平臺,此類模型將很好地服務(wù)于創(chuàng)作者。

      更惹眼的其實是谷歌此次新發(fā)布的文生視頻模型Veo。

      谷歌Veo可接收文本、圖像和視頻提示,生成1080p規(guī)格、60s的高質(zhì)量長視頻。

      年初OpenAI曾發(fā)布Sora,雖未正式對公眾開放使用,但演示視頻和小范圍的測試已經(jīng)讓Sora獲得了不小的追捧。從演示的效果來看,Veo可與Sora一戰(zhàn)。

      這屆I/O大會,谷歌交出了誠意滿滿的“成就清單”,大模型仍在進(jìn)步和創(chuàng)新中,AI應(yīng)用生態(tài)也不斷發(fā)展。

      但新名詞轟炸之后,能留給人深刻印象的東西并不多。比起前一天發(fā)布GPT-4o讓外界感嘆科幻電影照進(jìn)現(xiàn)實的OpenAI,谷歌到底還是缺一個王炸。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。