谷歌大殺器終于來了，最大規(guī)模Gemini震撼發(fā)布：真超GPT4，三大版本，手機(jī)直接可用

2023年12月07日 16:33:22 來源：微信公眾號機(jī)器之心

　　本文來自于微信公眾號機(jī)器之心(ID:almosthuman2014)，作者:機(jī)器之心。

　　時(shí)代變了?

　　迄今為止規(guī)模最大，能力最強(qiáng)的谷歌大模型來了。

　　當(dāng)?shù)貢r(shí)間12月6日，谷歌 CEO 桑達(dá)爾・皮查伊官宣Gemini1.0版正式上線。

　　這次發(fā)布的 Gemini 大模型是原生多模態(tài)大模型，是谷歌大模型新時(shí)代的第一步，它包括三種量級:能力最強(qiáng)的 Gemini Ultra，適用于多任務(wù)的 Gemini Pro 以及適用于特定任務(wù)和端側(cè)的 Gemini Nano。

　　現(xiàn)在，谷歌的類 ChatGPT 應(yīng)用 Bard 已經(jīng)升級到了 Gemini Pro 版本，實(shí)現(xiàn)了更為高級的推理、規(guī)劃、理解等能力，同時(shí)繼續(xù)保持免費(fèi)。谷歌預(yù)計(jì)在明年初將推出「Bard Advanced」，其將使用 Gemini Ultra。

　　這是 Bard 問世以來最大的更新。

　　自 ChatGPT 發(fā)布以來，我們一直對谷歌聲稱的競品 Gemini 模型的能力非常好奇，這款大模型早在今年3月就有了風(fēng)聲，5月的 I/O 大會上進(jìn)入「即將推出」的狀態(tài)。

　　隨著知情人士不斷透露新信息，我們能了解到:據(jù)說 Gemini 有萬億參數(shù)，訓(xùn)練動(dòng)用的算力是 GPT-4的五倍。但 Gemini 的正式發(fā)布卻似乎因?yàn)楦鞣N原因而屢遭推遲。

　　為了與 OpenAI 和微軟展開競爭，谷歌果斷從 PaLM2切換到了 Gemini 上，甚至在今年4月份直接把谷歌大腦(Google Brain)和 DeepMind 合并在了一起，Gemini 就由新組成的 Google DeepMind 匯合兩個(gè)實(shí)驗(yàn)室的力量進(jìn)行攻關(guān)。

　　可見谷歌在大模型軍備競賽上孤注一擲的心態(tài)。

　　那么，Gemini 真的能夠給我們帶來驚喜嗎?除了在各種 Benchmark 上拿到最優(yōu)成績，甚至超越人類以外，有趣的是，在新聞發(fā)布會上，面對記者有關(guān)「Gemini 相比以前的大模型有哪些新能力」的提問，Google DeepMind 產(chǎn)品副總裁 Eli Collins 回答說:「我懷疑有」，表示谷歌仍然在努力了解 Gemini Ultra 的全部能力。

　　以下為谷歌 CEO 皮查伊的聲明:

　　每一次技術(shù)變革都是推進(jìn)科學(xué)發(fā)現(xiàn)、加速人類進(jìn)步和改善生活的機(jī)會。我相信我們現(xiàn)在所看到的人工智能轉(zhuǎn)變將是我們一生中最深刻的轉(zhuǎn)變，遠(yuǎn)遠(yuǎn)大于之前向移動(dòng)或網(wǎng)絡(luò)的轉(zhuǎn)變。人工智能有潛力為世界各地的人們創(chuàng)造從日常生活到非凡的機(jī)會。它將帶來新一波的創(chuàng)新和經(jīng)濟(jì)進(jìn)步，并以前所未有的規(guī)模推動(dòng)知識、學(xué)習(xí)、創(chuàng)造力和生產(chǎn)力。

　　這讓我感到興奮:有機(jī)會讓人工智能為世界各地的每個(gè)人提供幫助。

　　作為一家人工智能優(yōu)先的公司，我們已經(jīng)走過了近八年的歷程，進(jìn)步的步伐只會不斷加快:數(shù)百萬人現(xiàn)在在我們的產(chǎn)品中使用生成式人工智能來完成一年前無法完成的事情，從尋找答案到更復(fù)雜的問題使用新工具進(jìn)行協(xié)作和創(chuàng)造的問題。與此同時(shí)，開發(fā)人員正在使用我們的模型和基礎(chǔ)設(shè)施來構(gòu)建新的生成式人工智能應(yīng)用程序，世界各地的初創(chuàng)公司和企業(yè)正在利用我們的人工智能工具不斷成長。

　　這是令人難以置信的勢頭，然而，我們才剛剛開始觸及可能性的表面。

　　我們正在大膽而負(fù)責(zé)任地開展這項(xiàng)工作。這意味著我們的研究要雄心勃勃，追求能夠?yàn)槿祟惡蜕鐣䦷砭薮罄娴哪芰Γ瑫r(shí)建立保障措施并與政府和專家合作，應(yīng)對人工智能變得更加強(qiáng)大的風(fēng)險(xiǎn)。我們將繼續(xù)投資最好的工具、基礎(chǔ)模型和基礎(chǔ)設(shè)施，并在我們的人工智能原則的指導(dǎo)下將它們引入我們的產(chǎn)品和其他產(chǎn)品中。

　　谷歌大模型 Gemini 正式發(fā)布

　　谷歌 DeepMind CEO 和聯(lián)合創(chuàng)始人 Demis Hassabis 代表 Gemini 團(tuán)隊(duì)正式推出了大模型 Gemini。

　　Hassabis 表示長久以來，谷歌一直想要建立新一代的 AI 大模型。在他看來，AI 帶給人們的不再只是智能軟件，而是更有用、更直觀的專家助手或助理。

　　今天，谷歌大模型 Gemini 終于亮相了，成為其有史以來打造的最強(qiáng)大、最通用的模型。Gemini 是谷歌各個(gè)團(tuán)隊(duì)大規(guī)模合作的成果，包括谷歌研究院的研究者。

　　特別值得關(guān)注的是，Gemini 是一個(gè)多模態(tài)大模型，意味著它可以泛化并無縫地理解、操作和組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。

　　谷歌表示，Gemini 還是他們迄今為止最靈活的模型，能夠高效地運(yùn)行在數(shù)據(jù)中心和移動(dòng)設(shè)備等多類型平臺上。Gemini 提供的 SOTA 能力將顯著增強(qiáng)開發(fā)人員和企業(yè)客戶構(gòu)建和擴(kuò)展 AI 的方式。

　　目前，Gemini1.0提供了三個(gè)不同的尺寸版本，分別如下:

　　Gemini Ultra:規(guī)模最大、能力最強(qiáng)，用于處理高度復(fù)雜的任務(wù);

　　Gemini Pro:在各種任務(wù)上擴(kuò)展的最佳模型;

　　Gemini Nano:用于端側(cè)(on-device)任務(wù)的最高效模型。

　　谷歌對 Gemini 模型進(jìn)行了嚴(yán)格的測試，并評估了它們在各種任務(wù)中的表現(xiàn)。從自然圖像、音頻和視頻理解，到數(shù)學(xué)推理等任務(wù)，Gemini Ultra 在大型語言模型研發(fā)被廣泛使用的32個(gè)學(xué)術(shù)基準(zhǔn)測試集中，在其中30個(gè)測試集的性能超過當(dāng)前 SOTA 結(jié)果。

　　另外，Gemini Ultra 在 MMLU(大規(guī)模多任務(wù)語言理解數(shù)據(jù)集)中的得分率高達(dá)90.0%，首次超越了人類專家。MMLU 數(shù)據(jù)集包含數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等57個(gè)科目，用于測試大模型的知識儲備和解決問題能力。

　　針對 MMLU 測試集的新方法使得 Gemini 能夠在回答難題之前利用其推理能力進(jìn)行更仔細(xì)的思考，相比僅僅根據(jù)問題的第一印象作答，Gemini 的表現(xiàn)有顯著改進(jìn)。

　　在大多數(shù)基準(zhǔn)測試中，Gemini 的性能都超越了 GPT-4。

　　更多細(xì)節(jié)，請查看詳細(xì)的測試報(bào)告:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

　　在最新版本的 MMMU 測試集中，Gemini Ultra 也取得了得分為59.4% 的最佳成績。增強(qiáng)版的測試集由需要慎重推理的多模態(tài)任務(wù)組成。

　　在圖像基準(zhǔn)方面的測試中，Gemini Ultra 不需要從圖像中提取文本就能進(jìn)行 OCR 處理，這凸顯了 Gemin 內(nèi)置的強(qiáng)大多模態(tài)能力，也初步顯示了 Gemini 具有更復(fù)雜推理能力的先兆。

　　下一代全方位能力升級

　　Gemini 在設(shè)計(jì)時(shí)原生地支持多模態(tài)，從一開始便在不同模態(tài)上進(jìn)行了預(yù)訓(xùn)練，然后利用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào)以提升有效性。因此，Gemini 能夠無縫地理解和推理各種輸入，遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有多模態(tài)模型，并且它的能力在幾乎每個(gè)領(lǐng)域都是最強(qiáng)的。

　　復(fù)雜推理能力

　　Gemini1.0具有復(fù)雜多模態(tài)推理能力，可以幫助理解復(fù)雜的書面和視覺信息。這使得它尤其擅長發(fā)現(xiàn)海量數(shù)據(jù)中難以辨別的知識。Gemini1.0通過閱讀、過濾和理解信息具有了從數(shù)十萬份文件中提取 insights 的超凡能力，這有助于科學(xué)、金融等諸多領(lǐng)域以超快的速度取得新突破。

　　同時(shí)理解文字、圖像、音頻以及更多模態(tài)的信息

　　經(jīng)過訓(xùn)練，Gemini1.0可以同時(shí)識別和理解文本、圖像、音頻等，因此它能夠更全面地理解輸入中信息的細(xì)節(jié)，也能回答與復(fù)雜主題相關(guān)的問題。因此，它特別擅長對數(shù)學(xué)和物理等復(fù)雜學(xué)科的問題進(jìn)行推理。

　　如下圖所示，一位老師畫了一個(gè)滑雪者從斜坡上下來的物理問題，而一位學(xué)生則提出了一個(gè)解決方案來計(jì)算滑雪者在斜坡底部的速度。利用Gemini的多模態(tài)推理能力，該模型能夠讀懂凌亂的筆跡，正確理解問題的表述，將問題和解決方案都轉(zhuǎn)換為數(shù)學(xué)公式，識別出學(xué)生在解決問題時(shí)出錯(cuò)的具體推理步驟，然后給出問題的正確解決方案。

　　高級編碼

　　Gemini 可以理解、解釋和生成流行編程語言(如 Python、Java、C++、Go)的高質(zhì)量代碼，具備強(qiáng)大的跨語言工作和推理復(fù)雜信息的能力使其成為世界領(lǐng)先的編碼基礎(chǔ)模型之一。

　　Gemini Ultra 在多個(gè)編碼基準(zhǔn)測試中表現(xiàn)出色，包括 HumanEval(用于評估編碼任務(wù)性能的重要行業(yè)標(biāo)準(zhǔn))和 Natural2Code(谷歌內(nèi)部數(shù)據(jù)集)，該數(shù)據(jù)集使用作者生成的源代碼而不是基于網(wǎng)絡(luò)的信息。

　　Gemini 還可以用作更高級編碼系統(tǒng)的引擎。兩年前，谷歌推出了 AlphaCode，這是第一個(gè)在編程競賽中達(dá)到競爭性水平的人工智能代碼生成系統(tǒng)。

　　使用 Gemini 的專門版本，谷歌創(chuàng)建了更先進(jìn)的代碼生成系統(tǒng) AlphaCode2，它擅長解決超出編碼范圍、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的競爭性編程問題。

　　經(jīng)過與原始 AlphaCode 在相同平臺上進(jìn)行評估，AlphaCode2展現(xiàn)出巨大的改進(jìn)，解決的問題數(shù)量幾乎是原來的兩倍。

　　專用 TPU 訓(xùn)練

　　谷歌使用內(nèi)部設(shè)計(jì)的張量處理單元 (TPU) v4和 v5e 在人工智能優(yōu)化基礎(chǔ)設(shè)施上對 Gemini1.0進(jìn)行了大規(guī)模訓(xùn)練，并將其設(shè)計(jì)為最可靠、可擴(kuò)展的訓(xùn)練模型和最高效的服務(wù)模型。

　　在 TPU 上，Gemini 的運(yùn)行速度明顯快于早期規(guī)模較小、能力較弱的模型。這些定制設(shè)計(jì)的 AI 加速器是谷歌人工智能產(chǎn)品的核心，這些產(chǎn)品為搜索、YouTube、Gmail、谷歌地圖、Google Play 和 Android 等數(shù)十億用戶提供服務(wù)。它們還幫助世界各地的公司經(jīng)濟(jì)高效地訓(xùn)練大規(guī)模人工智能模型。

　　今天，谷歌同時(shí)發(fā)布了迄今為止最強(qiáng)大、最高效、可擴(kuò)展的 TPU 系統(tǒng) —Cloud TPU v5p，專為訓(xùn)練尖端的人工智能模型而設(shè)計(jì)。新一代 TPU 將加速 Gemini 的發(fā)展，幫助開發(fā)人員和企業(yè)客戶更快地訓(xùn)練大規(guī)模生成式 AI 模型，讓新產(chǎn)品和新功能更快地與客戶見面。

　　Google 數(shù)據(jù)中心內(nèi)的一排 Cloud TPU v5p AI 加速器超級計(jì)算機(jī)。

　　谷歌旗下產(chǎn)品將全線升級

　　從今天開始，谷歌將在其產(chǎn)品中添加 Gemini，例如 Bard 將使用 Gemini Pro 的微調(diào)版本來執(zhí)行更高級的推理、規(guī)劃、理解等任務(wù)。這也是 Bard 自推出以來最大的升級。

　　升級版 Bard 將在170多個(gè)國家 / 地區(qū)提供英語版本，并且在不久的將來會擴(kuò)展到更多模態(tài)，并支持更多種語言。

　　谷歌還將 Gemini 引入了 Pixel。Pixel8Pro 將是第一款運(yùn)行 Gemini Nano 的智能手機(jī)。

　　Pixel8Pro 在錄音機(jī)應(yīng)用中使用 Gemini Nano 來總結(jié)會議音頻，即使沒有網(wǎng)絡(luò)連接也可以實(shí)現(xiàn)。

　　在接下來的幾個(gè)月中，Gemini 將陸續(xù)出現(xiàn)在谷歌更多的產(chǎn)品和服務(wù)中，包括搜索、廣告、Chrome、Duet AI 等等。

　　谷歌表示其已經(jīng)在搜索中試驗(yàn)了 Gemini，它使用戶的搜索生成體驗(yàn) (SGE) 速度更快，延遲減少了40%，同時(shí)質(zhì)量也得到了提升。

　　使用指南及未來規(guī)劃

　　最后，開發(fā)者如何使用 Gemini?

　　從12月13日開始，開發(fā)人員和企業(yè)客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 訪問 Gemini Pro。

　　從 Pixel8Pro 設(shè)備開始，Android 開發(fā)人員還可以通過 AICore 使用 Gemini Nano 進(jìn)行構(gòu)建。Android AICore 是 Android14中的一項(xiàng)新系統(tǒng)服務(wù)，可處理模型管理、運(yùn)行時(shí)、安全功能等，簡化用戶將 AI 融入應(yīng)用程序的工作。

　　AICore 通過 Gemini Nano 實(shí)現(xiàn)低秩適應(yīng) (LoRA) 微調(diào)。這個(gè)強(qiáng)大的概念使應(yīng)用程序的開發(fā)人員能夠根據(jù)自己的訓(xùn)練數(shù)據(jù)創(chuàng)建小型 LoRA 適配器。LoRA 適配器由 AICore 加載，從而產(chǎn)生針對應(yīng)用程序自身用例進(jìn)行微調(diào)的大型語言模型。

　　另外，谷歌劇透了 Gemini Ultra 將會在不久后發(fā)布，以及 Bard 的下一步升級計(jì)劃。

　　Gemini Ultra 模型目前正處于信任和安全檢查階段，包括由可信賴的外部各方組成的紅隊(duì)(red team)，并使用微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)一步完善模型。

　　在這個(gè)過程中，谷歌會先向部分客戶、開發(fā)人員、合作伙伴以及安全和責(zé)任專家提供 Gemini Ultra，供其進(jìn)行早期實(shí)驗(yàn)和反饋，然后在明年初向開發(fā)人員和企業(yè)客戶推出。

　　Gemini Ultra 是谷歌最大、功能最強(qiáng)大的模型，專為高度復(fù)雜的任務(wù)而設(shè)計(jì)。普通用戶體驗(yàn) Gemini Ultra 的首個(gè)方式會是通過 Bard Advanced，谷歌將在明年年初推出 Bard Advanced。

　　谷歌表示，未來將努力擴(kuò)展 Gemini 的功能，包括在規(guī)劃和記憶方面的進(jìn)步，以及增加上下文窗口以處理更多信息，從而做出更好的響應(yīng)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信