剛剛,谷歌DeepMind首席科學家Jeff Dean,首席執(zhí)行官Demis Hassabis兩大佬聯(lián)手發(fā)布了2023人工智能領(lǐng)域超權(quán)威的谷歌年度研究總結(jié)。
Google DeepMind,交卷!
剛剛,Jeff Dean和Hassabis聯(lián)手發(fā)文,一同回顧了Google Research和Google DeepMind在2023年的全部成果。
這一年開年,比起風靡全球的ChatGPT,谷歌看上去輸慘了。當時,數(shù)不清的資本熱錢向著OpenA流去,OpenAI的市值、知名度瞬間飆至前所未有的高度。
4月,陷入被動的谷歌放出終極大殺招:谷歌大腦和DeepMind正式合并!「王不見王」的兩大部門驚人合體,Jeff Dean和Hassabis終于聯(lián)手。
5月,谷歌在I/O大會上一雪前恥。全新的PaLM2反超GPT-4,辦公全家桶炸裂升級,Bard直接史詩級進化。
12月,谷歌深夜放出了復(fù)仇殺器Gemini,最強原生多模態(tài)直接碾壓了GPT-4。雖然在產(chǎn)品demo上有加工制作的成分,但不可否認,谷歌已經(jīng)把全世界的多模態(tài)研究推至前所未有的高度。
讓我們看一看,谷歌的諸位神人們是怎樣團結(jié)在一起,打響23年的復(fù)仇之戰(zhàn)的。
產(chǎn)品和技術(shù)的進步
這一年,生成式AI正式進入了大爆發(fā)。
2月,谷歌緊急推出了Bard,慢于OpenAI兩個月推出了自己的AI聊天機器人。
5月,谷歌在I/O大會上宣布了積累數(shù)月和數(shù)年的研究和成果,包括語言模型PaLM2。它整合了計算優(yōu)化擴展、改進的數(shù)據(jù)集組合和模型架構(gòu),即使在很高級的推理任務(wù)中,表現(xiàn)也很出色。
針對不同目的對PaLM2進行微調(diào)和指令調(diào)整后,谷歌將其集成到了眾多Google產(chǎn)品和功能中,包括:
1. Bard
現(xiàn)在,Bard能支持40多種語言和230多個國家和地區(qū),在日常使用的Google工具(如Gmail、Google地圖、YouTube)中,都可以使用Bard查找信息。
2. 搜索生成體驗(SGE)
它用LLM重新構(gòu)想如何組織信息以及如何幫用戶瀏覽信息,為谷歌的核心搜索產(chǎn)品創(chuàng)建了更流暢的對話式交互模型。
3. MusicLM
這個由AudioLM和MuLAN提供支持的文本到音樂模型,可以從文本、哼唱、圖像或視頻、音樂伴奏、歌曲中制作音樂。
4. Duet AI
Google Workspace中的Duet AI可以幫助用戶創(chuàng)作文字、創(chuàng)建圖像、分析電子表格、起草和總結(jié)電子郵件和聊天消息,總結(jié)會議等。Google Cloud中的Duet AI可以幫助用戶編寫、部署、擴展和監(jiān)控應(yīng)用,以及識別和解決網(wǎng)絡(luò)安全威脅。
繼去年發(fā)布文本到圖像生成模型Imagen之后,今年6月,谷歌又發(fā)布了Imagen Editor,它提供了使用區(qū)域掩碼和自然語言提示編輯生成圖像的功能,從而對模型輸出進行更精確的控制。
隨后,谷歌又發(fā)布了Imagen2,它通過專門的圖像美學模型改進了輸出,這個圖像美學模型參考了人類對良好照明、取景、曝光和清晰度的偏好。
10月,谷歌推出了Google搜索的一項新功能,幫助用戶練習口語、提高語言技能。
實現(xiàn)這一功能的關(guān)鍵技術(shù),就是和谷歌翻譯團隊合作開發(fā)的一種全新深度學習模型,名為Deep Aligner。
與基于隱馬爾可夫模型(HMM)的對齊方法相比,這個單一的新模型極大提高了所有測試語言對的對齊質(zhì)量,將平均對齊錯誤率從25%降低到5%。
11月,谷歌與YouTube合作發(fā)布了Lyria,這是谷歌迄今為止最先進的AI音樂生成模型。
12月,谷歌推出了Gemini,這是谷歌最強大、最通用的AI模型。
從一開始,Gemini就被構(gòu)建為跨文本、音頻、圖像和視頻的多模態(tài)模型。
Gemini有三種不同尺寸,Nano、Pro和Ultra。Nano是最小、最高效的模型,用于為Pixel等產(chǎn)品提供設(shè)備端體驗。Pro模型功能強大,最適合跨任務(wù)擴展。Ultra模型是最大、性能最強的模型,適用于高度復(fù)雜的任務(wù)。
根據(jù)Gemini模型的技術(shù)報告,Gemini Ultra的性能超過了32個廣泛使用的學術(shù)基準中的30個最新結(jié)果。
Gemini Ultra的得分為90.04%,是第一款在MMLU上表現(xiàn)優(yōu)于人類專家的模型,并在新的MMMU基準測試中獲得了59.4%的最高分。
在AlphaCode的基礎(chǔ)上,谷歌推出了由Gemini的專用版本支持的AlphaCode2,這是第一個在編程競賽中取得中位數(shù)水平表現(xiàn)的AI系統(tǒng)。
跟原始AlphaCode相比,AlphaCode2解決的問題為1.7倍以上,表現(xiàn)要優(yōu)于85%的參賽者。
同時,Gemini Pro模型的加持讓Bard也獲得了大升級,理解、總結(jié)、推理、編碼和計劃能力都大大提高。
在八項基準測試中的六項中,Gemini Pro的表現(xiàn)都優(yōu)于GPT-3.5,包括LLM的關(guān)鍵標準之一MMLU和衡量小學數(shù)學推理的GSM8K。
明年初,Gemini Ultra也會引入Bard,屆時必將引發(fā)全新的尖端AI體驗。
而且,Gemini Pro也可用于Vertex AI,這是Google Cloud的端到端 AI 平臺,使開發(fā)人員能夠構(gòu)建處理文本、代碼、圖像和視頻信息的應(yīng)用程序。
應(yīng)用程序,可以處理文本、代碼、圖像和視頻信息的應(yīng)用程序。Gemini Pro 也于12月在 AI Studio 中推出。
可以看到,Gemini能夠做到的事情包括但不限于——
解鎖科學文獻中的見解。
擅長競爭性編程。
處理和理解原始音頻。
Gemini可以回答為什么這個菜還沒炒熟:因為雞蛋是生的
解釋數(shù)學和物理中的推理。
了解用戶意圖,提供定制體驗。
機器學習/人工智能
除了在產(chǎn)品和技術(shù)方面的進步外,這一年谷歌也在機器學習和AI研究的更廣泛領(lǐng)域,取得了許多重要進展。
如今最先進的機器學習模型,核心架構(gòu)便是谷歌研究人員在2017年開發(fā)的Transformer架構(gòu)。
起初,Transformer是為語言而開發(fā)的,但如今,它已被證明在計算機視覺、音頻、基因組學、蛋白質(zhì)折疊等各種領(lǐng)域都有極大作用。
今年谷歌在擴展視覺Transformer方面的工作,在各種視覺任務(wù)中都達到了SOTA,還能用于構(gòu)建功能更強大的機器人。
擴展模型的多功能性,需要執(zhí)行更高層次和多步驟推理的能力。
今年,谷歌通過幾個研究接近了這個目標。
例如,算法提示(algorithmic prompting)的新方法,通過演示一系列算法步驟來教語言模型推理,然后模型可以將其應(yīng)用于新的上下文中。
這種方法將中學數(shù)學基準的準確率從25.9%提高到了61.1%。
通過提供算法提示,我們可以通過上下文學習來教模型算術(shù)規(guī)則
在視覺問答領(lǐng)域,谷歌與UC伯克利的研究人員合作,通過將視覺模型與語言模型相結(jié)合,使其更好地回答復(fù)雜的視覺問題——「馬車在馬的右邊嗎?」
CodeVQA方法的圖示。首先,大語言模型生成一個Python程序,該程序調(diào)用表示問題的可視化函數(shù)。在此示例中,使用簡單的VQA方法來回答問題的一部分,并使用對象定位器來查找所提及對象的位置。然后,程序通過組合這些函數(shù)的輸出來生成原始問題的答案
其中語言模型被訓練為通過合成程序執(zhí)行多步驟推理,來回答視覺問題。
為了訓練用于軟件開發(fā)的大型機器學習模型,谷歌開發(fā)了一個名為DIDACT的通用模型。
它了解軟件開發(fā)生命周期的方方面面,可以自動生成代碼審查注釋、響應(yīng)代碼審查注釋、為代碼片段提出性能改進建議、修復(fù)代碼以響應(yīng)編譯錯誤等等。
與谷歌地圖團隊的多年合作中,谷歌擴展了逆強化學習,并將其應(yīng)用于為超過10億用戶改進路線建議的世界級問題。
使用RHIP逆強化學習策略時,Google地圖相對于現(xiàn)有基準的路線匹配率有所改進
這項工作最終使全球路線匹配率相對提高了16-24%,確保路線更好地符合用戶偏好。
谷歌也在繼續(xù)研究提高機器學習模型推理性能的技術(shù)。
在研究神經(jīng)網(wǎng)絡(luò)中剪枝連接的計算友好方法時,團隊設(shè)計出一種近似算法,來解決計算上難以解決的最佳子集選擇問題,該算法能夠從圖像分類模型中修剪70%的邊緣,并且仍然保留原始模型的幾乎所有精度。
原始網(wǎng)絡(luò)與修剪后的網(wǎng)絡(luò)
在加速設(shè)備端擴散模型的過程中,谷歌對注意力機制、卷積核和操作融合進行各種優(yōu)化,以便在設(shè)備上運行高質(zhì)量的圖像生成模型。
現(xiàn)在只需12秒,就能在智能手機上生成「被周圍花朵包圍的可愛小狗的逼真高分辨率圖像」。
移動GPU上的LDM的示例輸出,prompt:「一張可愛的小狗的照片逼真的高分辨率圖像,周圍有花朵」
語言和多模態(tài)模型的進步,也有利于機器人研究工作。
谷歌將單獨訓練的語言、視覺和機器人控制模型組合成PaLM-E(一種用于機器人的具身多模態(tài)模型)和Robotic Transformer2(RT-2)。
這是一種新穎的視覺-語言-行動(VLA) 模型,它從網(wǎng)絡(luò)和機器人數(shù)據(jù)中學習,并將這些知識轉(zhuǎn)化為機器人控制的通用指令。
RT-2架構(gòu)和訓練:在機器人和網(wǎng)絡(luò)數(shù)據(jù)上共同微調(diào)預(yù)訓練的視覺語言模型。生成的模型接收機器人攝像頭圖像,并直接預(yù)測機器人要執(zhí)行的動作
此外,谷歌還研究了使用語言來控制四足機器人的步態(tài)。
SayTap使用腳部接觸模式(例如,插圖中每只腳的0和1序列,其中0表示空中的腳,1表示地面的腳)作為橋接自然語言用戶命令和低級控制命令的接口。通過基于強化學習的運動控制器,SayTap允許四足機器人接受簡單直接的指令(例如,「緩慢向前小跑」)以及模糊的用戶命令(例如,「好消息,我們這個周末要去野餐!」),并做出相應(yīng)的反應(yīng)
同時探索了通過使用語言來幫助制定更明確的獎勵函數(shù),以彌合人類語言和機器人動作之間的差距。
語言到獎勵系統(tǒng)由兩個核心組件組成:(1) 獎勵翻譯器和 (2) 運動控制器。Reward Translator將來自用戶的自然語言指令映射到表示為python代碼的獎勵函數(shù)。運動控制器使用后退水平優(yōu)化來優(yōu)化給定的獎勵函數(shù),以找到最佳的低級機器人動作,例如應(yīng)施加到每個機器人電機的扭矩量。
由于預(yù)訓練數(shù)據(jù)集中缺乏數(shù)據(jù),LLM無法直接生成低級機器人動作。團隊建議使用獎勵函數(shù)來彌合語言和低級機器人動作之間的差距,并從自然語言指令中實現(xiàn)新穎的復(fù)雜機器人運動
在Barkour中,團隊對四足機器人的敏捷性極限進行了基準測試。
幾位狗狗被邀請來參與障礙賽,結(jié)果顯示:小型犬能在約10秒內(nèi)完成障礙賽,機器狗一般要花20秒左右
算法與優(yōu)化
設(shè)計高效、穩(wěn)健和可擴展的算法始終是谷歌研究的重點。
最為重磅的成果之一,便是打破了十年算法瓶頸的AlphaDev。
它的創(chuàng)新意義在于,AlphaDev并不是通過改進現(xiàn)有算法,而是利用強化學習完全從頭開始發(fā)現(xiàn)了更快的算法。
結(jié)果顯示,AlphaDev發(fā)現(xiàn)新的排序算法,為LLVM libc++排序庫帶來了明顯的改進。對于較短的序列,速度提高了70%,而對于超過250,000個元素的序列,速度提高了約1.7%。
現(xiàn)在,這個算法已經(jīng)成為兩個標準C++編碼庫的一部分,每天都會被全球的程序員使用數(shù)萬億次。
為了更好地評估大型程序的執(zhí)行性能,谷歌開發(fā)了可以用來預(yù)測大型圖(large graphs)特性的全新算法,并配合發(fā)布了全新的數(shù)據(jù)集TPUGraphs。
TPUGraphs數(shù)據(jù)集包含4400萬個用于機器學習程序優(yōu)化的圖
此外,谷歌還提出了一種新的負載均衡算法——Prequal,它能夠在分配服務(wù)器查詢時,顯著節(jié)約CPU資源、減少響應(yīng)時間和內(nèi)存使用。
谷歌通過開發(fā)新的計算最小割、近似相關(guān)聚類和大規(guī)模并行圖聚類技術(shù),改進了聚類和圖算法的SOTA。
其中包括,專為擁有萬億條邊的圖設(shè)計的新型分層聚類算法TeraHAC;可以同時實現(xiàn)高質(zhì)量和高可擴展性的文本聚類算法KwikBucks;以及用于近似多嵌入模型標準相似函數(shù)Chamfer Distance的高效算法,與高度優(yōu)化的精確算法相比,該算法的速度提高了50倍以上,并可擴展至數(shù)十億個點。
此外,谷歌還對大規(guī)模嵌入模型 (LEMs) 了進行優(yōu)化。
其中包括,統(tǒng)一嵌入 (Unified Embedding),它在大規(guī)模機器學習系統(tǒng)中提供了經(jīng)過實戰(zhàn)測試的特征表示,以及序列注意力 (Sequential Attention) 機制,它在模型訓練過程中可以發(fā)現(xiàn)高效的稀疏模型結(jié)構(gòu)。
科學與社會
在不遠的將來,AI在科學研究中的應(yīng)用,有望將某些領(lǐng)域的發(fā)現(xiàn)速度提升10倍、100倍甚至更多。
從而推動生物工程、材料科學、天氣預(yù)測、氣候預(yù)報、神經(jīng)科學、遺傳醫(yī)學和醫(yī)療保健等眾多領(lǐng)域取得重大突破。
氣候與可持續(xù)性
在對飛機尾流 (contrails) 的研究中,谷歌通過分析大量天氣數(shù)據(jù)、歷史衛(wèi)星圖像和以往的飛行記錄,訓練了一個能夠預(yù)測飛機尾流的形成區(qū)域,并據(jù)此調(diào)整航線的AI模型。結(jié)果顯示,這一系統(tǒng)可以將飛機尾流減少54%。
為了幫助抵御氣候變化帶來的種種挑戰(zhàn),谷歌一直致力于開發(fā)全新的技術(shù)方法。
舉例來說,谷歌的洪水預(yù)報服務(wù)目前已經(jīng)覆蓋了80個國家,能夠直接影響超過4.6億人口。
此外,谷歌在天氣預(yù)測模型的開發(fā)上也有了最新的進展。
在MetNet和MetNet-2的基礎(chǔ)上,谷歌打造了更強的MetNet-3,可以在長達24小時的時間范圍內(nèi),實現(xiàn)超越傳統(tǒng)數(shù)值天氣模擬的效果。
在中期天氣預(yù)報領(lǐng)域,全新AI模型GraphCast可在1分鐘內(nèi),精準預(yù)測10天全球天氣,甚至還可以預(yù)測極端天氣事件。
研究發(fā)現(xiàn),與行業(yè)黃金標準天氣模擬系統(tǒng)——高分辨率預(yù)報(HRES)相比,GraphCast在1380個測試變量中準確預(yù)測超過90%。
而且,GraphCast還能比傳統(tǒng)預(yù)報模型更早地識別出惡劣天氣事件——提前3天預(yù)測出未來氣旋的潛在路徑。
值得一提的是,GraphCast模型的源代碼已經(jīng)全部開放,從而讓世界各地的科學家和預(yù)報員可以造福全球數(shù)十億人。
健康與生命科學
在醫(yī)療健康領(lǐng)域,AI展現(xiàn)出了巨大的潛力。
初代Med-PaLM,是第一個通過美國醫(yī)學執(zhí)照考試的AI模型。隨后的Med-PaLM2,又在此基礎(chǔ)上進一步提升了19%,達到了86.5%的專家級準確率。
而最近發(fā)布的多模態(tài)Med-PaLM M,不僅可以處理自然語言輸入,而且還能夠解釋醫(yī)學圖像、文本數(shù)據(jù)以及其他多種數(shù)據(jù)類型。
Med-PaLM M是一個大規(guī)模多模態(tài)生成模型,它能用相同的模型權(quán)重靈活地編碼和解釋生物醫(yī)學數(shù)據(jù),包括臨床語言、成像和基因組學數(shù)據(jù)
不僅如此,AI系統(tǒng)還能在現(xiàn)有醫(yī)療數(shù)據(jù)中探索出全新的信號和生物標記。
通過分析視網(wǎng)膜圖像,谷歌證明了可以從眼睛的照片中預(yù)測出多個與不同器官系統(tǒng)(如腎臟、血液、肝臟)相關(guān)的全新生物標記。
在另一項研究中,谷歌還發(fā)現(xiàn),將視網(wǎng)膜圖像與基因信息相結(jié)合有助于揭示一些與衰老相關(guān)的根本因素。
在基因組學領(lǐng)域,谷歌與60家機構(gòu)的119位科學家合作,繪制出了新的人類基因組圖譜。
并且,在開創(chuàng)性的AlphaFold基礎(chǔ)上,為所有7100萬個可能的錯義變體中的89%,提供了預(yù)測目錄。
此外,谷歌還發(fā)布了AlphaFold最新進展——「AlphaFold-latest」,它可以對蛋白質(zhì)數(shù)據(jù)庫(PDB)中幾乎所有分子,進行原子級精確的結(jié)構(gòu)預(yù)測。
這一進展不僅深化了我們對生物分子的理解,而且還大幅提升了在配體(小分子)、蛋白質(zhì)、核酸(DNA和RNA)以及含有翻譯后修飾(PTMs)的生物大分子等多個重要領(lǐng)域的準確性。
量子計算
量子計算機具有解決科學和工業(yè)領(lǐng)域重大現(xiàn)實問題的潛力。
但要實現(xiàn)這一潛力,量子計算機的規(guī)模必須比現(xiàn)在大得多,而且必須能夠可靠地執(zhí)行經(jīng)典計算機無法執(zhí)行的任務(wù)。
為了保證量子計算的可靠性,還需要將它的錯誤率從現(xiàn)在的10^3分之一降低到10^8分之一。
今年,谷歌在開發(fā)大型實用量子計算機的道路上邁出了重要一步——有史以來首次通過增加量子比特來降低計算錯誤率。
負責任的AI
生成式AI正在醫(yī)療、教育、安全、能源、交通、制造和娛樂等眾多領(lǐng)域帶來革命性的影響。
面對這些飛躍的發(fā)展,確保技術(shù)設(shè)計符合谷歌的AI原則依然是首要任務(wù)。
讓AI普及
在不斷推進機器學習和人工智能的最新技術(shù)的同時,谷歌也致力于幫助人們理解并將AI應(yīng)用于特定問題。
為此,谷歌推出了基于網(wǎng)頁的平臺Google AI Studio,幫助開發(fā)者打造并迭代輕量級的AI應(yīng)用。
同時,為了幫助AI工程師能夠更深入地理解和調(diào)試AI,谷歌還推出了最先進的開源機器學習模型調(diào)試工具——LIT1.0。
作為谷歌最受歡迎的工具之一,Colab可以讓開發(fā)者和學生直接在瀏覽器中訪問強大的計算資源,目前已擁有超過1000萬用戶。
前段時間,谷歌又在Colab中加入了AI代碼輔助功能,讓所有的用戶都夠在數(shù)據(jù)分析和機器學習工作流中,擁有更加便捷和一體化的體驗。
就在最近,谷歌為了確保AI能夠在實際應(yīng)用中提供正確無誤的信息,創(chuàng)新性地推出了FunSearch方法。
通過進化算法和大語言模型的結(jié)合,F(xiàn)unSearch能夠在數(shù)學科學領(lǐng)域生成經(jīng)過驗證的真實知識。
具體來說,F(xiàn)unSearch將預(yù)訓練的LLM與自動「評估器」配對使用。前者的目標是以計算機代碼的形式提供創(chuàng)造性的解決方案,后者則防止幻覺和錯誤的想法。在這兩個組件之間反復(fù)迭代之后,初始的解決方案便會「進化」為新知識。
社區(qū)參與
通過發(fā)表研究成果、參與和組織學術(shù)會議,谷歌正在持續(xù)推動AI和計算機科學的發(fā)展。
今年,谷歌已發(fā)表了500多篇論文。其中,有不少都被收錄在了包括ICML、ICLR、NeurIPS、ICCV、CVPR、ACL、CHI和Interspeech等眾多頂會之中。
此外,谷歌還聯(lián)合33個學術(shù)實驗室,通過匯總來自22種不同機器人類型的數(shù)據(jù),創(chuàng)建了Open X-Embodiment數(shù)據(jù)集和RT-X模型。
谷歌在MLCommons標準組織的支持下,帶頭在行業(yè)內(nèi)推動AI安全基準的建立,參與者包括 OpenAI、Anthropic、Microsoft、Meta、Hugging Face等在生成式AI領(lǐng)域舉足輕重的機構(gòu)。
展望未來
隨著多模態(tài)模型(multimodal models)的不斷進步,它們將助力人類在科學、教育乃全新的知識領(lǐng)域取得驚人的成就。
隨著時間的推進,谷歌的產(chǎn)品和研究也不斷進步,而人們也將會找到更多富有創(chuàng)意的AI應(yīng)用方式。
在這篇年終總結(jié)的最后,讓我們回到開頭的話題,正如谷歌在「Why We Focus on AI (and to what end)」中所言:
「如果大膽而負責地推進AI的發(fā)展,我們相信AI能夠成為一項基礎(chǔ)技術(shù),徹底改變?nèi)澜缛说纳?mdash;—這正是我們追求的目標,也是我們的激情所在!」
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。