Gemini 開啟大模型路線之爭新戰(zhàn)場將“數(shù)流成河”

2023年12月15日 12:19:56

　　來源 | 零壹智庫

　　作者|聶鐳

　　谷歌上演了一出“ 那些沒有殺死我的，將使我更強大”。互聯(lián)網(wǎng)高速發(fā)展了幾十年，但全世界超過10億用戶的業(yè)務(wù)或者應(yīng)用一共沒超過20個，而谷歌擁有6個。在絕大很多網(wǎng)民心目中，Google是人類歷史上最偉大的公司，沒有之一，而且在人工智能方面的先發(fā)優(yōu)勢不可撼動。這一信念嘎然而止在2022年11 月 20 號 ChatGPT發(fā)布的歷史性時刻，眾人紛紛倒向新觀點“像ChatGPT這樣的人工智能聊天機器人將像搜索引擎殺死黃頁一樣摧毀谷歌”(Gmail的創(chuàng)始人Paul Buchheit語)。

　　谷歌Bard發(fā)布當天，市值下跌千億美金，似乎正好印證了這個論斷。但Gemini的發(fā)布驚艷世人，改變了大模型領(lǐng)域ChatGPT獨領(lǐng)風騷的局面。Gemini 不僅在很多性能上超過了ChatGPT 4，它同時帶來了另一種可能性：具有原生數(shù)據(jù)優(yōu)勢的互聯(lián)網(wǎng)巨頭，可能在多模態(tài)大模型競爭中占據(jù)優(yōu)勢。

　　這意味著，谷歌、馬斯克、Meta以及中國的騰訊、抖音、阿里、百度等公司都有可能在Gemini 開創(chuàng)的路線上加速迭代大模型。大模型戰(zhàn)局，進入第二階段。第一階段只用一年時間，就攪翻了整個全球互聯(lián)網(wǎng)和人工智能，在摩爾定律的加持下，第二個階段，又將是怎樣突破人類的想象力?

　　01史詩級的一年

　　從2022年11 月 20 號 ChatGPT發(fā)布之后這一年，幾乎日日充斥“奇點時刻”的驚爆與 “AI下半場”的狂歡，GPTs 和GPT4 Turbo 也意料之外情理之中地發(fā)布了。還有一系列 Sam Altman作為CEO 被OpenAI董事會開除、又王者歸來的橋段出現(xiàn)，吃瓜群眾應(yīng)接不暇。然而即便是在這樣的亂世里，由Google + DeepMind用盡洪荒之力推出的 AGI 里程碑“雙子星 Gemini”發(fā)布仍然可以算是核彈級的。

　　為什么?不妨讓從資本市場這個最敏感的儀表盤看看大模型的史詩級影響：1、投資 OpenAI 百億美金的大贏家微軟市值大漲 50% 來到3萬億美元，無疑成AI最大受益者。2、大模型淘金熱的萬卡起步，讓英偉達股價飆升了 245%，市值解鎖萬億后停不下來，已突破1.2萬億美元，超過Facebook母公司Meta或特斯拉，躋身所謂“七巨頭”。3、作為登上巔峰后迄今為止在互聯(lián)網(wǎng)搜索領(lǐng)域的完全統(tǒng)治地位的 Google，這一年天天度日如年，這一年內(nèi)討論 Google 被顛覆話題占有史以來的99%以上，如果谷歌輸?shù)暨@場AI之戰(zhàn)會怎么樣?二級市場已經(jīng)給出了回答。

　　Bard發(fā)布當天的一次回答錯誤，就讓Google母公司Alphabet市值減少了1000億美元。然而就在上周 ChatGPT 一周年慶之后，Google高調(diào)發(fā)布“史上功能最強的通用人工智能大模型”，據(jù)稱通過大型語言模型領(lǐng)域中廣泛使用的32個基準測試，幾乎全部(其中30 個)表現(xiàn)出了“最先進的性能”，不僅擊敗了OpenAI的GPT-4，甚至在MMLU(大規(guī)模多任務(wù)語言理解)基準測試中，成為第一個超越人類專家的模型。

　　如果這是真的，意味著什么?“這巨大飛躍將影響幾乎所有的Google產(chǎn)品。” 要知道 Google是(至少目前還是)全球最大的互聯(lián)網(wǎng)公司、搜索引擎的絕對霸主，而搜索無處不在，仍是絕大多數(shù)人獲取信息的第一方式;Google母公司Alphabet的名字也說明了它的產(chǎn)品布局是無孔不入的。

　　2020 年GPT-3以來的標志性大模型產(chǎn)品

　　02谷歌的洪荒之力

　　那么，姍姍來遲的 Google AGI，Gemini，究竟有沒有力挽狂瀾的底氣?實際上，Gemini項目需溯源至 2023年4月20日，是 Google 吹響了“紅色警報”之后的關(guān)鍵戰(zhàn)略抉擇。那天，谷歌選擇將Google Brain與DeepMind合并，成立了Google DeepMind，并宣布將公司在AI領(lǐng)域的世界級人才、計算能力及 TPU基礎(chǔ)設(shè)施等資源加以結(jié)合，創(chuàng)新研發(fā)大模型以對標OpenAI的GPT-4，可謂押上了全部賭注，殊死背水一戰(zhàn)。

　　“Gemini是Google的下一代多模態(tài)大模型”的戰(zhàn)書已下，讓外界對Gemini關(guān)注度持續(xù)升高、好奇心拉滿。7月，辭職已有四年的谷歌聯(lián)合創(chuàng)始人Sergey Brin(謝爾蓋·布林)重返谷歌，其回歸無疑是助陣Gemini系統(tǒng)，也讓業(yè)界預(yù)感“Gemini將會是下半年大模型賽道的焦點。”Gemini特征有如下三個：

　　1、原生多模態(tài)、多語言多國度、從海量云存儲數(shù)據(jù)中做預(yù)訓練

　　在谷歌給出的長達60頁的Gemini技術(shù)報告中，最值得關(guān)注的是，Gemini模型的訓練數(shù)據(jù)集既多模態(tài)又多語言。其中，前期訓練數(shù)據(jù)集使用來自網(wǎng)絡(luò)文檔、書籍和代碼的數(shù)據(jù)，包括圖像、音頻和視頻數(shù)據(jù)等。“Google拿自家海量云存儲的圖片進行了預(yù)訓練，確實把模型的多模態(tài)能力拉升了一大截。”谷歌在Gemini技術(shù)報告中寫到，“當模型多模態(tài)能力被真正探索出來時，會提供更多細節(jié)。”實際搭載Gemini Pro的Bard與GPT-4進行的對比測試表明：通過識別不同圖片中的人物、地點、文字、動物甚至其中可能蘊含的科學知識，綜合對比，Gemini Pro的多模態(tài)能力確實足以抗衡GPT-4，前者的響應(yīng)速度也“快很多”，另外，前者可以免費使用，但后者已經(jīng)有了“3小時40次的限制”。

　　2、多尺寸、分場景，發(fā)揮Google 布局生態(tài)優(yōu)勢

　　Gemini分Ultra、Pro和Nano三種不同尺寸和萬能應(yīng)用場景的設(shè)計，其中Ultra版可用于大型數(shù)據(jù)中心等，屬于處理高復雜度任務(wù)的模型;Pro版則用于各種擴展任務(wù)，屬于日常使用模型，且已搭載于谷歌的對話機器人Bard中;Nano版則是應(yīng)用于智能手機等移動設(shè)備終端上的模型。

　　Google 在多年的布局中，早就通過收購擁有了 TPU 計算集群、YouTube內(nèi)容入口、Andriod 移動操作系統(tǒng)等無處不在的生態(tài)優(yōu)勢，若 Gimini 能堪與GPT-4在AGI 能力上“掰手腕”的大任，那么勝負的天平無疑將反過來倒向守成者Google 一邊

　　3、人海戰(zhàn)術(shù)

　　前面提及長達60頁的Gemini技術(shù)報告，最令其驚訝的是光報告的作者就多達9頁，“每頁90人，八百余人，超過OpenAI公司的總?cè)藬?shù)。”要知道，OpenAI員工總數(shù)目前不足800人，雖然在 AI 人才爭奪戰(zhàn)中 OpenAI 虹吸了不少來自各個巨頭 AI 部門的大咖，當然 Google Brain 和 Deepmind也不會幸免，在其中貢獻了最大比例。

　　OpenAI 人才來源數(shù)據(jù)統(tǒng)計來自Leadgenious Punks & Pinstripes但即便如此，瘦死的駱駝比馬大，Google Brain內(nèi)部仍然人才濟濟，仍然有超過800位以上來自世界各地的頂尖科學家;DeepMind目前擁有大約1000名員工，而且高薪養(yǎng)人，平均每名員工工資接近47萬英鎊，相當于人民幣400萬。兩者合并得到 Gemini，這也不難看出谷歌在Gemini模型開發(fā)與技術(shù)創(chuàng)新方面投入的AI人才之多。更何況 Google 畢竟是一個擁有將近 20 萬員工的巨無霸，AI 巔峰之戰(zhàn)提到最高議事日程上以后，內(nèi)部優(yōu)勢兵力一定會向主戰(zhàn)場匯集。

　　Gemini帶來的，是“路線之爭”

　　但這是否表明Gemini 的發(fā)布已經(jīng)形勢占優(yōu)，甚至對GPT-4形成了“全面超越”?由于目前還無法完成全面的測評，只能為大家提供以下重要參考：

　　1、Gemini在中文識別理解能力上，相較GPT-4略遜一籌，也就是說“Gemini仍無法可靠處理‘非英語’的任務(wù)。”2、谷歌專門針對測試相關(guān)領(lǐng)域進行了優(yōu)化，Gemini只在既定領(lǐng)域中的指標表現(xiàn)好，并不能夠說明模型真正的泛化能力強。“至于真正能力，需要在更多的數(shù)據(jù)集上進行測評。” 演示視頻被質(zhì)疑夸大造假，而且是用尚未發(fā)布的 Ultra 而不是可測的 Pro版本，一時間招致很多抨擊，風波不斷，但旋即谷歌也甩出演示視頻制作的記錄文章，大方承認視頻經(jīng)過剪輯合成。

　　原來，在專業(yè)提示詞循循善誘的前提下才調(diào)度到的多模態(tài)推理能力，這多少有些“強力粉飾”的魔術(shù)效果和心理暗示，但多模態(tài)的基礎(chǔ)推理能力還是確實在的。由此可見與ChatGPT巔峰對決的難度之大!連昔日AI 絕對王者也需要做對公眾先做這樣的心理誘導，等不及產(chǎn)品的完整實用化～

　　如圖：發(fā)布視頻中只保留了模型輸出的反饋，沒有充分暴露提示3、原生多模態(tài)訓練的范式經(jīng)驗證能走通，那么新的訓練范式的上限極高，這條技術(shù)路線將吸引大多數(shù)擁有內(nèi)容數(shù)據(jù)的平臺型企業(yè)追隨。

　　Google產(chǎn)品線積累的海量高質(zhì)量多模態(tài)數(shù)據(jù)，是后續(xù)Gemini的快速、持續(xù)迭代的保障。Gemini的技術(shù)報告中也有這樣一段表述，“谷歌發(fā)現(xiàn)數(shù)據(jù)質(zhì)量對于高性能模型至關(guān)重要，并認為在尋找預(yù)訓練的最佳數(shù)據(jù)集分布方面，仍有許多有趣的問題。”

　　為拓展多模態(tài)模型的訓練數(shù)據(jù)集，谷歌還對外表示，Bard將在超過 170 個國家和地區(qū)提供 Gemini Pro 版本服務(wù)，并計劃未來擴展到不同的模態(tài)，支持更多語言和地區(qū)。不僅明年初將推出升級的Bard Advanced版本，在接下來的幾個月里，谷歌還將陸續(xù)把Gemini應(yīng)用于搜索、廣告、Chrome等更多的產(chǎn)品和服務(wù)中。

　　04新戰(zhàn)局開始了

　　ChatGPT 一騎絕塵的情況下，其他選手本已望塵莫及，Gemini的發(fā)布讓人看到了未來世界風云變幻的一種現(xiàn)實可能性，就是從數(shù)據(jù)優(yōu)勢出發(fā)，走原生多模態(tài)技術(shù)路線。而這一新賽道(如果將來成功翻盤就算是新的)也將必然成為在互聯(lián)網(wǎng)領(lǐng)域原來已經(jīng)深耕多年、有數(shù)據(jù)優(yōu)勢的大廠之必選。

　　谷歌之外，Meta擁有全球 30 億用戶，它的大模型 Llama在下一戰(zhàn)局中不可小覷;而中國的騰訊、阿里、抖音、百度等互聯(lián)網(wǎng)巨頭都是擁有 10 億級用戶的大廠，并且都在發(fā)布了自己的大模型。至于下階段哪家率先宣布也有了原生多模態(tài)的競爭力，需拭目以待。不過要說每一家有江湖名號的都重新獲得追趕甚至超越的機會，那得看“硬核”馬斯克(Elon Musk)同不同意。

　　現(xiàn)在，他已經(jīng)擁有了龐大的原生數(shù)據(jù)來源。作為實干冒險家，馬斯克向來生死看淡、不服就干。他曾天使投資OpenAI一億美金，想以特斯拉吸收OpenAI被拒，最終被踢出局。馬斯克可謂初戀愛之深、未婚恨之切，攜數(shù)據(jù)優(yōu)勢與宇宙情懷重新殺回 AI爭霸之路——X改名自馬斯克四百億美金買回來的 Twitter，xAI于今年7月12日官宣成立。

　　馬斯克是一個把太多不可能變成現(xiàn)實的人，他以“X”入道肩負起“為全人類發(fā)展的希望，了解宇宙的真實本質(zhì)，確保人工智能的發(fā)展有助于人類意識的持久發(fā)展”。xAI在通過X 平臺實時了解世界方面具有獨特而根本的優(yōu)勢，且能夠回答其他人工智能系統(tǒng)拒絕回答的尖銳問題，這源于其設(shè)計初衷是通過智慧和一些叛逆的傾向來回答問題，“如果您不喜歡幽默，請不要使用它。

　　”果然骨骼驚奇，非常馬斯克。更重要的是，馬斯克的擁有龐大的原生數(shù)據(jù)來源：從推特改名而來的X(與 xAI幾乎同名)，全球特斯拉數(shù)據(jù)，以及星鏈可能帶來的龐大數(shù)據(jù)。前幾個月出版的《埃隆·馬斯克傳》寫道：“喂養(yǎng)人工智能，靠的是數(shù)據(jù)。新誕生的這些聊天機器人正在接受海量信息的訓練，包括互聯(lián)網(wǎng)上的數(shù)十億個網(wǎng)頁和其他文檔。谷歌和微軟擁有搜索引擎、云服務(wù)和電子郵箱，他們手頭有大量的數(shù)據(jù)可以幫他們訓練這些系統(tǒng)。”

　　“馬斯克能給這場戰(zhàn)局帶來什么呢?馬斯克坐擁的一大數(shù)據(jù)資產(chǎn)是推特的信息流，其中包括多年來所有人發(fā)布的超過1萬億條推文，還有每天新增的5億條。它是人類集體意識的體現(xiàn)，是世界上更新最及時的數(shù)據(jù)集，包含了現(xiàn)實生活中人類的各種對話、新聞、興趣、趨勢、爭論和術(shù)語。”“此外，它還是一個很好的訓練場，可以讓聊天機器人測試真人對其回復做出的反應(yīng)。馬斯克在收購推特時并沒有考慮到這些數(shù)據(jù)的價值，他說：‘實際上這算是一個附帶的好處，我是在買下推特以后才意識到的。’”

　　“馬斯克還擁有另一個數(shù)據(jù)寶庫：特斯拉每天從自家車輛上的攝像頭接收并處理的1 600億幀視頻畫面。這些數(shù)據(jù)不同于為聊天機器提供信息的文本文件，這是人類在真實世界中導航的視頻數(shù)據(jù)，它有助于為實體機器人打造人工智能系統(tǒng)，而不再是只能?成文本的聊天機器人。”“通用人工智能的王冠是打造出能夠像人類?樣在物理空間(比如工廠、辦公室和火星表面)運行的機器，而不僅是?些讓我們感到驚艷的虛擬聊天機器人。特斯拉和推特可以共同為這兩個研究方向提供數(shù)據(jù)集和數(shù)據(jù)處理能力：不管是教機器在物理空間中自主導航，還是教它們用自然語言回答問題。

　　”2023年1月，馬斯克在推特會議室召開了一系列深夜會議，研究如何針對這項服務(wù)收費的問題。他認為這是一個將推特數(shù)據(jù)集變現(xiàn)的好機會。且能限制谷歌和微軟使用這些數(shù)據(jù)改進自家的人工智能聊天機器人。我們可以腦補一下，如果這些具有龐大原生數(shù)據(jù)的大廠在競爭中采用數(shù)據(jù)收費甚至數(shù)據(jù)壟斷策略，下一階段的戰(zhàn)況，將會怎樣?!

　　Google 王者業(yè)已歸來， Gemini 出場花式秀魔術(shù)引發(fā)全員關(guān)注和質(zhì)疑爭論，但宣傳目的已經(jīng)基本達到了，并就此掀起大模型戰(zhàn)局的新篇章。毫無疑問，大模型PK精彩程度將愈演愈烈。在這個每 72 小時就必有大事件的時代，請緊跟了別掉隊，一起洞見未來～（作者聶鐳，龍馬智芯創(chuàng)始人，零壹智庫特約專家，國防科技大學人工智能博士、副研究員，廣東省領(lǐng)軍人才）End.

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信