這兩天,AI再一次登上了各大媒體的頭條。
12月6日,谷歌官宣了了全新的多模態(tài)大模型 Gemini,包含了三個版本,根據(jù)谷歌的基準測試結(jié)果,其中的 Gemini Ultra 版本在許多測試中都表現(xiàn)出了“*進的性能”,甚至在大部分測試中完全擊敗了 OpenAI 的 GPT-4。
而在Gemini出盡了風頭的同時,谷歌還丟出了另一個另一個重磅炸彈——全新的自研芯片TPU v5p,它也是迄今為止功能最強大的 TPU。
根據(jù)官方提供的數(shù)據(jù),每個 TPU v5p pod 在三維環(huán)形拓撲結(jié)構(gòu)中,通過最高帶寬的芯片間互聯(lián)(ICI),以 4,800 Gbps/chip 的速度將 8,960 個芯片組合在一起,與 TPU v4 相比,TPU v5p 的 FLOPS 和高帶寬內(nèi)存(HBM)分別提高了 2 倍和 3 倍。
除此之外,TPU v5p訓(xùn)練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍,利用第二代 SparseCores,TPU v5p 訓(xùn)練嵌入密集模型的速度比 TPU v4 快 1.9 倍。TPU v5p 在每個 pod 的總可用 FLOPs 方面的可擴展性也比 TPU v4 高出 4 倍,且每秒浮點運算次數(shù)(FLOPS)增加了一倍,單個 pod 中的芯片數(shù)量也增加了一倍,大大提高了訓(xùn)練速度的相對性能。
谷歌還找來了一堆科學(xué)家為TPU v5p的AI性能背書:
Salesforce 高級研究科學(xué)家Erik Nijkamp表示:“我們一直在利用谷歌云TPU v5p對Salesforce的基礎(chǔ)模型進行預(yù)訓(xùn)練,這些模型將作為專業(yè)生產(chǎn)用例的核心引擎,我們看到訓(xùn)練速度有了顯著提高。事實上,Cloud TPU v5p 的計算能力是上一代 TPU v4 的 2 倍之多。我們還非常喜歡使用 JAX 從 Cloud TPU v4 到 v5p 的無縫輕松過渡。我們很高興能通過精確量化訓(xùn)練(AQT)庫對 INT8 精確格式的原生支持來優(yōu)化我們的模型,從而進一步提高速度。”
Lightricks 核心生成式人工智能研究團隊負責人 Yoav HaCohen 博士表示:“利用谷歌云 TPU v5p 的*性能和充足內(nèi)存,我們成功地訓(xùn)練了文本到視頻的生成模型,而無需將其拆分成單獨的進程。這種*的硬件利用率大大加快了每個訓(xùn)練周期,使我們能夠迅速開展一系列實驗。在每次實驗中快速訓(xùn)練模型的能力促進了快速迭代,這是我們的研究團隊在競爭激烈的生成式人工智能領(lǐng)域的寶貴優(yōu)勢。”
谷歌 DeepMind 和谷歌研究院首席科學(xué)家 Jeff Dean也力挺自家芯片:“在早期使用中,谷歌DeepMind和谷歌研究院觀察到使用TPU v5p芯片的LLM訓(xùn)練工作負載的速度比TPU v4代提高了2倍。對 ML 框架(JAX、PyTorch、TensorFlow)和協(xié)調(diào)工具的強大支持使我們能夠在 v5p 上更高效地擴展。有了第二代 SparseCores,我們還發(fā)現(xiàn)嵌入式工作負載的性能有了顯著提高。TPU 對于我們在 Gemini 等前沿模型上開展*規(guī)模的研究和工程工作至關(guān)重要。”
對于谷歌來說,Gemini是應(yīng)對Open AI的一柄利器,而TPU v5p則是一塊敲門磚,用它來壘起一道抵御英偉達GPU的高墻,軟件硬件雙管齊下,似乎它在AI時代里已處在不敗之地。
問題來了,谷歌憑什么能擁有現(xiàn)在的優(yōu)勢?
岌岌無名到名滿天下
谷歌TPU并非一蹴而就,它的自研旅途始于十年之前。
作為一家科技公司的谷歌,其實早在 2006 年就考慮為神經(jīng)網(wǎng)絡(luò)構(gòu)建專用集成電路 (ASIC),但到了 2013 年,情況變得緊迫了起來,谷歌的科學(xué)家們開始意識到,神經(jīng)網(wǎng)絡(luò)快速增長的計算需求與數(shù)據(jù)中心數(shù)量存在著不可協(xié)調(diào)的矛盾。
當時的 Google AI負責人Jeff Dean經(jīng)過計算后發(fā)現(xiàn),如果有1億安卓用戶每天使用手機語音轉(zhuǎn)文字服務(wù)3分鐘,其中消耗的算力就是Google所有數(shù)據(jù)中心總算力的兩倍,而全球安卓用戶遠不止1億。
數(shù)據(jù)中心的規(guī)模不可能無限制地擴張下去,谷歌也不可能限制用戶使用服務(wù)的時間,但CPU和GPU都難以滿足谷歌的需求:CPU一次只能處理相對來說很少量的任務(wù),GPU在執(zhí)行單個任務(wù)時效率較低,而且所能處理的任務(wù)范圍更小,自研成了最后的出路。
谷歌立下了一個小目標:針對機器學(xué)習這一目的來構(gòu)建特定領(lǐng)域計算架構(gòu)(Domain-specific Architecture),還要將深度神經(jīng)網(wǎng)絡(luò)推理的總體擁有成本(TCO)降低至原來的十分之一。
通常,ASIC 的開發(fā)需要數(shù)年時間,但谷歌卻僅用了 15 個月就完成了TPU處理器的設(shè)計、驗證、制造并部署到數(shù)據(jù)中心。TPU 項目的技術(shù)負責人 Norm Jouppi(也是 MIPS 處理器的主要架構(gòu)師之一)這樣描述沖刺階段:
“我們的芯片設(shè)計速度非?臁_@確實非常了不起。我們在沒有修正錯誤或更改掩膜的情況下,就開始出貨*個芯片?紤]到我們在構(gòu)建芯片的同時還在招聘團隊,然后招聘 RTL(電路設(shè)計)人員,并急于招聘設(shè)計驗證人員,這一切都非常忙碌。”
代表著谷歌技術(shù)結(jié)晶的初代TPU 采用了 28 納米工藝制造,運行頻率為 700MHz,運行時功耗為 40W,谷歌將處理器包裝成外置加速卡,安裝在 SATA 硬盤插槽中,實現(xiàn)即插即用。TPU 通過 PCIe Gen3 x16 總線與主機連接,可提供 12.5GB/s 的有效帶寬。
與 CPU 和 GPU 相比,單線程 TPU 不具備任何復(fù)雜的微架構(gòu)功能,極簡主義是特定領(lǐng)域處理器的優(yōu)點,谷歌的TPU一次只能運行一項任務(wù):神經(jīng)網(wǎng)絡(luò)預(yù)測,但每瓦性能卻達到了GPU的30倍,CPU的80倍。
谷歌在這件事上表現(xiàn)得非常低調(diào),直到2016年的Google I/O開發(fā)者大會上,首席執(zhí)行官Sundar Pichai才正式向世界展示了TPU這一自研成果。
Pichai對參會的嘉賓表示,DeepMind研發(fā)的AlphaGo能夠擊敗韓國棋手李世石,底層硬件里的TPU功不可沒,TPU就像希臘神話中引發(fā)特洛伊戰(zhàn)爭的女人——海倫,它的出現(xiàn)引起了“成千芯片與之競逐”。
但谷歌并未止步于此,幾乎是在*代TPU完成后,就立刻投入到了下一代的開發(fā)當中:2017年,TPU v2問世;2018年,TPU v3推出;2021年,TPU v4在Google I/O開發(fā)者大會上亮相……
而谷歌對于AI芯片也愈發(fā)得心應(yīng)手:*代 TPU 僅支持 8 位整數(shù)運算,這意味著它能進行推理,但訓(xùn)練卻遙不可及;而TPU v2,不僅引入了HBM內(nèi)存,還支持了浮點運算,從而支持了機器模型的訓(xùn)練和推理;TPU v3則在前一代基礎(chǔ)上,重點加強了性能,且部署在 Pod 中的芯片數(shù)量翻四倍。
到了TPU v4,Pichai更是驕傲地表示:“AI技術(shù)的進步有賴于計算基礎(chǔ)設(shè)施的支持,而TPU正是Google計算基礎(chǔ)設(shè)施的重要部分。新一代TPU v4芯片的速度是v3的兩倍多。Google用TPU集群構(gòu)建出Pod超級計算機,單臺TPU v4 Pod包含4096塊v4芯片,每臺Pod的芯片間互連帶寬是其他互連技術(shù)的10倍,因此,TPU v4 Pod的算力可達1 ExaFLOP,即每秒執(zhí)行10的18次方浮點運算,相當于1000萬臺筆記本電腦的總算力。”
到了2023年的今天,TPU已經(jīng)成為了AI芯片的代名詞之一,成為了繼CPU和GPU后又一重要的處理器,它部署在谷歌數(shù)十座數(shù)據(jù)中心當中,每天完成著數(shù)以億計的AI計算任務(wù)。
谷歌的自研帝國
TPU只是谷歌自研的序幕。
2017年的Google Cloud Next '17 大會上,谷歌推出了名為Titan的定制安全芯片,它專為硬件級別的云安全而設(shè)計,通過為特定硬件建立加密身份,實現(xiàn)更安全的識別和身份驗證,從而防范日益猖獗的BIOS攻擊。
Titan芯片面向的并不全是谷歌自己,它的出現(xiàn)是為了說服企業(yè),數(shù)據(jù)存在谷歌云中比企業(yè)的本地數(shù)據(jù)中心更安全,谷歌表示,自研的Titan芯片通過建立強大的基于硬件的系統(tǒng)身份,來驗證系統(tǒng)固件和軟件組件,保護啟動的過程,這一切得益于谷歌自己創(chuàng)建的硬件邏輯,從根本上減少了硬件后門的可能性,基于Titan的生態(tài)系統(tǒng)也確保了設(shè)施僅使用授權(quán)且可驗證的代碼,最終讓谷歌云擁有了比本地數(shù)據(jù)中心更安全的可靠性。
Titan的出現(xiàn),只不過是小試牛刀,2021年3月,谷歌在ASPLOS 會議上首次介紹了一塊應(yīng)用于YouTube服務(wù)器的自研芯片,即Argos VCU,它的任務(wù)很簡單,就是對用戶上傳的視頻進行轉(zhuǎn)碼。
根據(jù)數(shù)據(jù)統(tǒng)計,用戶每分鐘會向YouTube上傳超過500小時的各種格式的視頻內(nèi)容,而谷歌則需要將這些內(nèi)容快速轉(zhuǎn)換成多種分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和各種格式(例如,H.264、VP9或AV1),沒有一塊具備強大的編碼能力的芯片,想要快速轉(zhuǎn)碼就是一件不可能的事情。
谷歌嘗試過兩種解決方案,*種是英特爾的視覺計算加速器(VCA),包含三個 Xeon E3 CPU,內(nèi)置 Iris Pro P6300/P580GT4e 集成圖形內(nèi)核和先進的硬件編碼器,第二種則是利用英特爾至強處理器外加軟件編碼來完成任務(wù)。
但不論是前者還是后者,都需要龐大的服務(wù)器規(guī)模和巨額的電力損耗,于是,谷歌開啟了又一塊自研芯片——VCU的研發(fā)。負責監(jiān)督 YouTube 龐大基礎(chǔ)設(shè)施的 Google 工程副總裁斯科特·西爾弗 (Scott Silver) 表示,從2015年開始,大約有 100 名 Google 工程師組成的團隊投身設(shè)計*代Argos 芯片,在此后幾年當中,這支團隊不僅完成了研發(fā),還讓芯片應(yīng)用在谷歌的數(shù)據(jù)中心當中,而Argos的實力也得以展現(xiàn)——它處理視頻的效率比傳統(tǒng)服務(wù)器高 20 到 33 倍,處理高分辨率 4K 視頻的時間由幾天縮短為數(shù)小時。
下一代Argos或許早已悄悄在谷歌服務(wù)器中上線了,根據(jù)報道,谷歌自研的第二代VCU將支持 AV1、H.264 和 VP9 編解碼器,可以進一步提高其編碼技術(shù)的效率,也將會是YouTube內(nèi)容創(chuàng)作生態(tài)的最有力支撐。
而谷歌最強的大招還得是最復(fù)雜的手機SoC。2021年10月19日,一場秋季發(fā)布會上,搭載谷歌*自研芯片 Tensor 的旗艦手機 Pixel 6 系列首次亮相。
谷歌高級副總裁 Rick Osterloh 在發(fā)布會上表示,這款芯片是“公司歷史上*的移動硬件創(chuàng)新”,而谷歌CEO Sundar Pichai更是早早地在推特上曬出了Tensor芯片的照片,對于自研項目的自豪感溢于言表。
不過這塊自研芯片,實質(zhì)上是基于三星在2020年開放的半定制芯片設(shè)計的服務(wù),在TechInsights的拆解圖中,Tensor的封裝尺寸為 10.38mm x 10.43mm = 108.26mm 2,內(nèi)部芯片標識為“S5P9845”,符合傳統(tǒng)三星Exynos處理器命名規(guī)則,如Exynos 990的芯片標識為S5E9830,Exynos 2100 5G SoC芯片標識為S5E9840,本質(zhì)上是谷歌定義,三星設(shè)計代工的一塊芯片。
即便如此,谷歌的自研芯片的布局也已初具雛形,從TPU到Titan,從VCU到Tensor,谷歌走過了十年的旅程,而它試圖全盤掌握這個硅片組成帝國的野心也昭然若揭。
谷歌的聰明帳與絆腳石
對于谷歌來說,要錢有錢,要技術(shù)有技術(shù),要應(yīng)用場景有應(yīng)用場景,可以說是各大科技巨頭中在自研AI芯片這條路上走得最遠的,其他廠商目前還在源源不斷地給英偉達賬戶打錢,但谷歌卻早已做好了兩手準備,不少人甚至將它視為如今英偉達壟斷局面的最強挑戰(zhàn)者。
與微軟和亞馬遜相比,谷歌最突出的優(yōu)勢,就是從系統(tǒng)級的角度設(shè)計TPU,單個芯片固然重要,但在現(xiàn)實世界中如何在系統(tǒng)中組合使用則更為重要。雖然英偉達也從系統(tǒng)角度思考問題,但他們的系統(tǒng)規(guī)模比谷歌更小,范圍也更窄。而且谷歌還在 TPU 之間使用了定制的網(wǎng)絡(luò)堆棧 ICI。與昂貴的以太網(wǎng)和 InfiniBand 部署相比,這種鏈路延遲低、性能高,類似于英偉達的 NVLink。
事實上,谷歌的 TPUv2 可以擴展到 256 個 TPU 芯片,與英偉達的 H100 GPU 數(shù)量相同。在 TPU v3 和 TPU v4 中,這一數(shù)字分別增加到了 1024 和 4096個。根據(jù)趨勢線,而最新的 TPU v5p 則可以擴展到 8960 個芯片,而無需通過低效的以太網(wǎng)。
此外,谷歌在OCS、拓撲結(jié)構(gòu)、DLRM 優(yōu)化上也具有獨到的優(yōu)勢,十年來積攢的經(jīng)驗優(yōu)勢幫助谷歌的TPU在數(shù)據(jù)中心里和AI大模型中大展身手,在具體應(yīng)用中,用遙遙*來形容也不過分,未來谷歌完全擺脫英偉達GPU的掣肘,也并非不可能。
不過,谷歌還有一個不大不小的絆腳石。
TPU的自研始于2013年,能在15個月里快速部署到數(shù)據(jù)中心,同時實現(xiàn)快速迭代性能猛增,除了夜以繼日的谷歌研究人員外,另外一家公司提供的幫助也極其重要。
根據(jù)2020年摩根大通分析師哈蘭·蘇爾的報告,谷歌TPU v1至v4這幾代均是由博通共同設(shè)計的,當時它已經(jīng)開始生產(chǎn)采用7nm 工藝的TPU v4,并開始與谷歌合作設(shè)計采用5nm工藝的TPU v5
蘇爾表示,博通的專用集成電路(ASIC)業(yè)務(wù)2020全年收入為 7.5 億美元,高于 2016 年的 5000 萬美元,除了芯片設(shè)計之外,博通還為谷歌提供了關(guān)鍵的知識產(chǎn)權(quán),并負責了制造、測試和封裝新芯片等步驟,以供應(yīng)谷歌的新數(shù)據(jù)中心,博通還與其他客戶如Facebook、微軟和AT&T等公司合作設(shè)計ASIC芯片。
而根據(jù)2022年博通的財報,其將 ASIC 收入分為兩部分:路由和交換以及計算卸載。計算卸載在數(shù)據(jù)中心內(nèi)分兩步處理。當提出計算請求時,路由器和交換機會決定由數(shù)據(jù)中心的哪個部分來處理這項工作。一旦決定,處理器(通常是 CPU 或 GPU,如 Nvidia 設(shè)計的處理器)就會進行計算,然后由這些路由器和交換機再次通過互聯(lián)網(wǎng)或?qū)S镁W(wǎng)絡(luò)發(fā)送回最終用戶。
就收入而言,博通是全球第二大人工智能芯片公司,僅次于英偉達,其ASIC的銷售額達數(shù)十億美元,而這正是谷歌為響應(yīng)微軟與 OpenAI 合作而加大 TPU 部署的結(jié)果,光是一家谷歌的TPU就讓博通的ASIC收入翻了兩番還多,谷歌沒交給英偉達的人工智能稅,以另一種形式進了博通的口袋。
無論是哪家公司,都不會心甘情愿繼續(xù)交這筆錢的,因而在今年9月就傳出了谷歌準備在2027年前結(jié)束與博通的合作關(guān)系,消息人士稱,谷歌高管已經(jīng)設(shè)定了放棄博通的目標,轉(zhuǎn)而開始考慮起了它的競爭對手Marvell,此前兩家公司就TPU 芯片的定價問題陷入了長達數(shù)月的僵局。
雖然后面谷歌官方又出來辟謠,表示目前沒有計劃改變與博通的合作關(guān)系,但私底下兩家不合已經(jīng)是人盡皆知的事情了。
谷歌在TPU上算了一筆聰明帳,在微軟等巨頭乖乖交錢的時候,它掏出了TPU v5p來對抗英偉達,但它沒想到的是,幾年前還不起眼的ASIC合作,如今卻成了TPU發(fā)展路上*的一顆絆腳石,只要擴大TPU的部署規(guī)模,就得不斷加錢給博通。
如此想來,巨頭們真的是躲得過初一,躲不過十五,躲過了英偉達GPU高達70%的利潤,卻躲不過像博通這樣的合作公司,微軟這些巨頭,想要在AI芯片上省錢,今后難免會遇到像谷歌今日一般的困局吧。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。