來源 | 零壹智庫
作者|聶鐳
谷歌上演了一出“ 那些沒有殺死我的,將使我更強大”。互聯(lián)網(wǎng)高速發(fā)展了幾十年, 但全世界超過10億用戶的業(yè)務(wù)或者應(yīng)用一共沒超過20個, 而谷歌擁有6個。在絕大很多網(wǎng)民心目中,Google是人類歷史上最偉大的公司,沒有之一,而且在人工智能方面的先發(fā)優(yōu)勢不可撼動。這一信念嘎然而止在2022年11 月 20 號 ChatGPT發(fā)布的歷史性時刻,眾人紛紛倒向新觀點“像ChatGPT這樣的人工智能聊天機器人將像搜索引擎殺死黃頁一樣摧毀谷歌”(Gmail的創(chuàng)始人Paul Buchheit語)。
谷歌Bard發(fā)布當天,市值下跌千億美金,似乎正好印證了這個論斷。但Gemini的發(fā)布驚艷世人,改變了大模型領(lǐng)域ChatGPT獨領(lǐng)風騷的局面。Gemini 不僅在很多性能上超過了ChatGPT 4,它同時帶來了另一種可能性:具有原生數(shù)據(jù)優(yōu)勢的互聯(lián)網(wǎng)巨頭,可能在多模態(tài)大模型競爭中占據(jù)優(yōu)勢。
這意味著,谷歌、馬斯克、Meta以及中國的騰訊、抖音、阿里、百度等公司都有可能在Gemini 開創(chuàng)的路線上加速迭代大模型。大模型戰(zhàn)局,進入第二階段。第一階段只用一年時間,就攪翻了整個全球互聯(lián)網(wǎng)和人工智能,在摩爾定律的加持下,第二個階段,又將是怎樣突破人類的想象力?
01史詩級的一年
從2022年11 月 20 號 ChatGPT發(fā)布之后這一年,幾乎日日充斥“奇點時刻”的驚爆與 “AI下半場”的狂歡,GPTs 和GPT4 Turbo 也意料之外情理之中地發(fā)布了。還有一系列 Sam Altman作為CEO 被OpenAI董事會開除、又王者歸來的橋段出現(xiàn),吃瓜群眾應(yīng)接不暇。然而即便是在這樣的亂世里,由Google + DeepMind用盡洪荒之力推出的 AGI 里程碑“雙子星 Gemini”發(fā)布仍然可以算是核彈級的。
為什么?不妨讓從資本市場這個最敏感的儀表盤看看大模型的史詩級影響:1、投資 OpenAI 百億美金的大贏家微軟市值大漲 50% 來到3萬億美元,無疑成AI最大受益者。2、大模型淘金熱的萬卡起步,讓英偉達股價飆升了 245%,市值解鎖 萬億后停不下來,已突破1.2萬億美元,超過Facebook母公司Meta或特斯拉,躋身所謂“七巨頭”。3、作為登上巔峰后迄今為止在互聯(lián)網(wǎng)搜索領(lǐng)域的完全統(tǒng)治地位的 Google,這一年天天度日如年,這一年內(nèi)討論 Google 被顛覆話題占有史以來的99%以上,如果谷歌輸?shù)暨@場AI之戰(zhàn)會怎么樣?二級市場已經(jīng)給出了回答。
Bard發(fā)布當天的一次回答錯誤,就讓Google母公司Alphabet市值減少了1000億美元。然而就在上周 ChatGPT 一周年慶之后,Google高調(diào)發(fā)布“史上功能最強的通用人工智能大模型”,據(jù)稱通過大型語言模型領(lǐng)域中廣泛使用的32個基準測試,幾乎全部(其中30 個)表現(xiàn)出了“最先進的性能”,不僅擊敗了OpenAI的GPT-4,甚至在MMLU(大規(guī)模多任務(wù)語言理解)基準測試中,成為第一個超越人類專家的模型。
如果這是真的,意味著什么?“這巨大飛躍將影響幾乎所有的Google產(chǎn)品。” 要知道 Google是(至少目前還是)全球最大的互聯(lián)網(wǎng)公司、搜索引擎的絕對霸主,而搜索無處不在,仍是絕大多數(shù)人獲取信息的第一方式;Google母公司Alphabet的名字也說明了它的產(chǎn)品布局是無孔不入的。
2020 年GPT-3以來的標志性大模型產(chǎn)品
02谷歌的洪荒之力
那么,姍姍來遲的 Google AGI,Gemini,究竟有沒有力挽狂瀾的底氣?實際上,Gemini項目需溯源至 2023年4月20日,是 Google 吹響了“紅色警報”之后的關(guān)鍵戰(zhàn)略抉擇。那天,谷歌選擇將Google Brain與DeepMind合并,成立了Google DeepMind,并宣布將公司在AI領(lǐng)域的世界級人才、計算能力及 TPU基礎(chǔ)設(shè)施等資源加以結(jié)合,創(chuàng)新研發(fā)大模型以對標OpenAI的GPT-4,可謂押上了全部賭注,殊死背水一戰(zhàn)。
“Gemini是Google的下一代多模態(tài)大模型”的戰(zhàn)書已下,讓外界對Gemini關(guān)注度持續(xù)升高、好奇心拉滿。7月,辭職已有四年的谷歌聯(lián)合創(chuàng)始人Sergey Brin(謝爾蓋·布林)重返谷歌,其回歸無疑是助陣Gemini系統(tǒng),也讓業(yè)界預(yù)感“Gemini將會是下半年大模型賽道的焦點。”Gemini特征有如下三個:
1、原生多模態(tài)、多語言多國度、從海量云存儲數(shù)據(jù)中做預(yù)訓練
在谷歌給出的長達60頁的Gemini技術(shù)報告中,最值得關(guān)注的是,Gemini模型的訓練數(shù)據(jù)集既多模態(tài)又多語言。其中,前期訓練數(shù)據(jù)集使用來自網(wǎng)絡(luò)文檔、書籍和代碼的數(shù)據(jù),包括圖像、音頻和視頻數(shù)據(jù)等。“Google拿自家海量云存儲的圖片進行了預(yù)訓練,確實把模型的多模態(tài)能力拉升了一大截。”谷歌在Gemini技術(shù)報告中寫到,“當模型多模態(tài)能力被真正探索出來時,會提供更多細節(jié)。”實際搭載Gemini Pro的Bard與GPT-4進行的對比測試表明:通過識別不同圖片中的人物、地點、文字、動物甚至其中可能蘊含的科學知識,綜合對比,Gemini Pro的多模態(tài)能力確實足以抗衡GPT-4,前者的響應(yīng)速度也“快很多”,另外,前者可以免費使用,但后者已經(jīng)有了“3小時40次的限制”。
2、 多尺寸、分場景,發(fā)揮Google 布局生態(tài)優(yōu)勢
Gemini分Ultra、Pro和Nano三種不同尺寸和萬能應(yīng)用場景的設(shè)計,其中Ultra版可用于大型數(shù)據(jù)中心等,屬于處理高復雜度任務(wù)的模型;Pro版則用于各種擴展任務(wù),屬于日常使用模型,且已搭載于谷歌的對話機器人Bard中;Nano版則是應(yīng)用于智能手機等移動設(shè)備終端上的模型。
Google 在多年的布局中,早就通過收購擁有了 TPU 計算集群、YouTube內(nèi)容入口、Andriod 移動操作系統(tǒng)等無處不在的生態(tài)優(yōu)勢,若 Gimini 能堪與GPT-4在AGI 能力上“掰手腕”的大任,那么勝負的天平無疑將反過來倒向 守成者Google 一邊
3、人海戰(zhàn)術(shù)
前面提及長達60頁的Gemini技術(shù)報告,最令其驚訝的是光報告的作者就多達9頁,“每頁90人,八百余人,超過OpenAI公司的總?cè)藬?shù)。”要知道,OpenAI員工總數(shù)目前不足800人,雖然在 AI 人才爭奪戰(zhàn)中 OpenAI 虹吸了不少來自各個巨頭 AI 部門的大咖,當然 Google Brain 和 Deepmind也不會幸免,在其中貢獻了最大比例。
OpenAI 人才來源數(shù)據(jù)統(tǒng)計來自Leadgenious Punks & Pinstripes但即便如此,瘦死的駱駝比馬大,Google Brain內(nèi)部仍然人才濟濟,仍然有超過800位以上來自世界各地的頂尖科學家;DeepMind目前擁有大約1000名員工,而且高薪養(yǎng)人,平均每名員工工資接近47萬英鎊,相當于人民幣400萬。兩者合并得到 Gemini,這也不難看出谷歌在Gemini模型開發(fā)與技術(shù)創(chuàng)新方面投入的AI人才之多。更何況 Google 畢竟是一個擁有將近 20 萬員工的巨無霸,AI 巔峰之戰(zhàn)提到最高議事日程上以后,內(nèi)部優(yōu)勢兵力一定會向主戰(zhàn)場匯集。
03
Gemini帶來的,是“路線之爭”
但這是否表明Gemini 的發(fā)布已經(jīng)形勢占優(yōu),甚至對GPT-4形成了“全面超越”?由于目前還無法完成全面的測評,只能為大家提供以下重要參考:
1、Gemini在中文識別理解能力上,相較GPT-4略遜一籌,也就是說“Gemini仍無法可靠處理‘非英語’的任務(wù)。”2、谷歌專門針對測試相關(guān)領(lǐng)域進行了優(yōu)化,Gemini只在既定領(lǐng)域中的指標表現(xiàn)好,并不能夠說明模型真正的泛化能力強。“至于真正能力,需要在更多的數(shù)據(jù)集上進行測評。” 演示視頻被質(zhì)疑夸大造假,而且是用尚未發(fā)布的 Ultra 而不是可測的 Pro版本,一時間招致很多抨擊,風波不斷,但旋即谷歌也甩出演示視頻制作的記錄文章,大方承認視頻經(jīng)過剪輯合成。
原來,在專業(yè)提示詞循循善誘的前提下才調(diào)度到的多模態(tài)推理能力,這多少有些“強力粉飾”的魔術(shù)效果和心理暗示,但多模態(tài)的基礎(chǔ)推理能力還是確實在的。由此可見與ChatGPT巔峰對決的難度之大!連昔日AI 絕對王者也需要做對公眾先做這樣的心理誘導,等不及產(chǎn)品的完整實用化~
如圖:發(fā)布視頻中只保留了模型輸出的反饋,沒有充分暴露提示3、原生多模態(tài)訓練的范式經(jīng)驗證能走通,那么新的訓練范式的上限極高,這條技術(shù)路線將吸引大多數(shù)擁有內(nèi)容數(shù)據(jù)的平臺型企業(yè)追隨。
Google產(chǎn)品線積累的海量高質(zhì)量多模態(tài)數(shù)據(jù), 是后續(xù)Gemini的快速、持續(xù)迭代的保障。Gemini的技術(shù)報告中也有這樣一段表述,“谷歌發(fā)現(xiàn)數(shù)據(jù)質(zhì)量對于高性能模型至關(guān)重要,并認為在尋找預(yù)訓練的最佳數(shù)據(jù)集分布方面,仍有許多有趣的問題。”
為拓展多模態(tài)模型的訓練數(shù)據(jù)集,谷歌還對外表示,Bard將在超過 170 個國家和地區(qū)提供 Gemini Pro 版本服務(wù),并計劃未來擴展到不同的模態(tài),支持更多語言和地區(qū)。不僅明年初將推出升級的Bard Advanced版本,在接下來的幾個月里,谷歌還將陸續(xù)把Gemini應(yīng)用于搜索、廣告、Chrome等更多的產(chǎn)品和服務(wù)中。
04新戰(zhàn)局開始了
ChatGPT 一騎絕塵的情況下,其他選手本已望塵莫及,Gemini的發(fā)布讓人看到了未來世界風云變幻的一種現(xiàn)實可能性,就是從數(shù)據(jù)優(yōu)勢出發(fā),走原生多模態(tài)技術(shù)路線。而這一新賽道(如果將來成功翻盤就算是新的)也將必然成為在互聯(lián)網(wǎng)領(lǐng)域原來已經(jīng)深耕多年、有數(shù)據(jù)優(yōu)勢的大廠之必選。
谷歌之外,Meta擁有全球 30 億用戶,它的大模型 Llama在下一戰(zhàn)局中不可小覷;而中國的騰訊、阿里、抖音、百度等互聯(lián)網(wǎng)巨頭都是擁有 10 億級用戶的大廠,并且都在發(fā)布了自己的大模型。至于下階段哪家率先宣布也有了原生多模態(tài)的競爭力,需拭目以待。不過要說每一家有江湖名號的都重新獲得追趕甚至超越的機會,那得看“硬核”馬斯克(Elon Musk)同不同意。
現(xiàn)在,他已經(jīng)擁有了龐大的原生數(shù)據(jù)來源。作為實干冒險家,馬斯克向來生死看淡、不服就干。他曾天使投資OpenAI一億美金,想以特斯拉吸收OpenAI被拒,最終被踢出 局。馬斯克可謂初戀愛之深、未婚恨之切,攜數(shù)據(jù)優(yōu)勢與宇宙情懷重新殺回 AI爭霸之路——X改名自馬斯克四百億美金買回來的 Twitter,xAI于今年7月12日官宣成立。
馬斯克是一個把太多不可能變成現(xiàn)實的人,他以“X”入道肩負起“為全人類發(fā)展的希望,了解宇宙的真實本質(zhì),確保人工智能的發(fā)展有助于人類意識的持久發(fā)展”。xAI在通過X 平臺實時了解世界方面具有獨特而根本的優(yōu)勢,且能夠回答其他人工智能系統(tǒng)拒絕回答的尖銳問題,這源于其設(shè)計初衷是通過智慧和一些叛逆的傾向來回答問題,“如果您不喜歡幽默,請不要使用它。
”果然骨骼驚奇,非常馬斯克。更重要的是,馬斯克的擁有龐大的原生數(shù)據(jù)來源:從推特改名而來的X(與 xAI幾乎同名),全球特斯拉數(shù)據(jù),以及星鏈可能帶來的龐大數(shù)據(jù)。前幾個月出版的《埃隆·馬斯克傳》寫道:“喂養(yǎng)人工智能,靠的是數(shù)據(jù)。新誕生的這些聊天機器人正在接受海量信息的訓練,包括互聯(lián)網(wǎng)上的數(shù)十億個網(wǎng)頁和其他文檔。谷歌和微軟擁有搜索引擎、云服務(wù)和電子郵箱,他們手頭有大量的數(shù)據(jù)可以幫他們訓練這些系統(tǒng)。”
“馬斯克能給這場戰(zhàn)局帶來什么呢?馬斯克坐擁的一大數(shù)據(jù)資產(chǎn)是推特的信息流,其中包括多年來所有人發(fā)布的超過1萬億條推文,還有每天新增的5億條。它是人類集體意識的體現(xiàn),是世界上更新最及時的數(shù)據(jù)集,包含了現(xiàn)實生活中人類的各種對話、新聞、興趣、趨勢、爭論和術(shù)語。”“此外,它還是一個很好的訓練場,可以讓聊天機器人測試真人對其回復做出的反應(yīng)。馬斯克在收購推特時并沒有考慮到這些數(shù)據(jù)的價值,他說:‘實際上這算是一個附帶的好處,我是在買下推特以后才意識到的。’”
“馬斯克還擁有另一個數(shù)據(jù)寶庫:特斯拉每天從自家車輛上的攝像頭接收并處理的1 600億幀視頻畫面。這些數(shù)據(jù)不同于為聊天機器提供信息的文本文件,這是人類在真實世界中導航的視頻數(shù)據(jù),它有助于為實體機器人打造人工智能系統(tǒng),而不再是只能?成文本的聊天機器人。”“通用人工智能的王冠是打造出能夠像人類?樣在物理空間(比如工廠、辦公室和火星表面)運行的機器,而不僅是?些讓我們感到驚艷的虛擬聊天機器人。特斯拉和推特可以共同為這兩個研究方向提供數(shù)據(jù)集和數(shù)據(jù)處理能力:不管是教機器在物理空間中自主導航,還是教它們用自然語言回答問題。
”2023年1月,馬斯克在推特會議室召開了一系列深夜會議,研究如何針對這項服務(wù)收費的問題。他認為這是一個將推特數(shù)據(jù)集變現(xiàn)的好機會。且能限制谷歌和微軟使用這些數(shù)據(jù)改進自家的人工智能聊天機器人。我們可以腦補一下,如果這些具有龐大原生數(shù)據(jù)的大廠在競爭中采用數(shù)據(jù)收費甚至數(shù)據(jù)壟斷策略,下一階段的戰(zhàn)況,將會怎樣?!
Google 王者業(yè)已歸來, Gemini 出場花式秀魔術(shù)引發(fā)全員關(guān)注和質(zhì)疑爭論,但宣傳目的已經(jīng)基本達到了,并就此掀起大模型戰(zhàn)局的新篇章。毫無疑問,大模型PK精彩程度將愈演愈烈。在這個每 72 小時就必有大事件的時代,請緊跟了別掉隊,一起洞見未來~(作者聶鐳,龍馬智芯創(chuàng)始人,零壹智庫特約專家,國防科技大學人工智能博士、副研究員,廣東省領(lǐng)軍人才)End.
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。