哈佛輟學(xué)生搞AI芯片公司：融資1.2億美元，面向一個模型

2024年06月26日 09:41:17 編輯部 來源：微信公眾號：半導(dǎo)體行業(yè)觀察

　　近日，AI芯片初創(chuàng)公司Etched宣布，已籌集 1.2 億美元，向 Nvidia 發(fā)起 AI 芯片設(shè)計挑戰(zhàn)。

　　Etched 正在設(shè)計一款名為 Sohu 的新芯片，用于處理 AI 處理的一個關(guān)鍵部分：Transformation。該公司表示，通過將 Transformer 架構(gòu)刻錄到芯片中，它正在打造世界上最強大的 Transformer 推理服務(wù)器。Etched 表示，這是有史以來最快的 Transformer 芯片。

　　Primary Venture Partners 和 Positive Sum Ventures 領(lǐng)投了此輪融資，并獲得了 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures(戰(zhàn)略)和 Skybox Data Centers(戰(zhàn)略)等機構(gòu)投資者的支持。

　　值得一提的是，該公司的天使投資人包括 Peter Thiel、Stanley Druckenmiller、 David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim 和 Charlie Cheeve。

　　泰爾獎學(xué)金主任亞歷克斯·漢迪 (Alex Handy) 在一份聲明中表示：“投資 Etched 是對人工智能價值的戰(zhàn)略押注。他們的芯片解決了競爭對手不敢解決的可擴展性問題，挑戰(zhàn)了同行普遍存在的停滯不前現(xiàn)象。Etched 的創(chuàng)始人體現(xiàn)了我們支持的非傳統(tǒng)人才——從哈佛輟學(xué)，進軍半導(dǎo)體行業(yè)。他們付出了艱苦的努力，以便硅谷的其他人可以繼續(xù)安心地編程，而不必擔心他們正在研究的任何底層技術(shù)。”

　　Etched創(chuàng)始人：Robert Wachen、Gavin Uberti、Chris Zhu

　　Transformer一統(tǒng)江湖， GPU撞墻

　　正如大家所所看到的，過去解決AI問題，都是考GPU。不過Etched在博客中表示，圣克拉拉的秘密是，GPU 并沒有變得更好，而是變得更大了。四年來，芯片單位面積的計算能力 (TFLOPS) 幾乎保持不變。

　　他們表示，NVIDIA 的 B200、AMD 的 MI300、英特爾的 Gaudi 3 和亞馬遜的 Trainium2 都將兩塊芯片算作一張卡，以實現(xiàn)“雙倍”性能。從 2022 年到 2025 年，AI 芯片并沒有真正變得更好，而是變得更大了。2022 年到 2025 年，所有 GPU 性能提升都使用了這個技巧，但Etched 除外。

　　在 transformer 統(tǒng)治世界之前，許多公司都構(gòu)建了靈活的 AI 芯片和 GPU 來處理數(shù)百種不同的架構(gòu)。以下列舉一些：

　　NVIDIA的GPUs、Google的TPUs、Amazon的Trainium、AMD的加速器、Graphcore的IPUs、SambaNova SN Series、Cerebras的CS-2、Groq的GroqNode、Tenstorrent的Grayskull、D-Matrix的Corsair、Cambricon的Siyuan和Intel的Gaudi.

　　從來沒有人制造過專門針對算法的 AI 芯片 (ASIC)。芯片項目的成本為 5000 萬至 1 億美元，需要數(shù)年時間才能投入生產(chǎn)。我們剛開始時，沒有市場。

　　突然間，情況發(fā)生了變化：

　　前所未有的需求：在 ChatGPT 之前，Transformer 推理的市場約為 5000 萬美元，現(xiàn)在則達到數(shù)十億美元。所有大型科技公司都使用 Transformer 模型(OpenAI、谷歌、亞馬遜、微軟、Facebook 等)。

　　架構(gòu)上的融合：AI 模型過去變化很大。但自 GPT-2 以來，*進的模型架構(gòu)幾乎保持不變!OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa，甚至 Tesla FSD 都是 Transformer。

　　當模型的訓(xùn)練成本超過 10 億美元，推理成本超過 100 億美元時，專用芯片是不可避免的。在這個規(guī)模下，1% 的改進將證明 5000 萬至 1 億美元的定制芯片項目是合理的。

　　事實上，ASIC 的速度比 GPU 快幾個數(shù)量級。當比特幣礦機于 2014 年進入市場時，丟棄 GPU 比使用它們來挖掘比特幣更便宜。

　　由于涉及數(shù)十億美元的資金，人工智能也將發(fā)生同樣的情況。

　　Transformer 驚人地相似：諸如 SwiGLU 激活和 RoPE 編碼之類的調(diào)整隨處可見：LLM、嵌入模型、圖像修復(fù)和視頻生成。

　　雖然 GPT-2 和 Llama-3 是相隔五年的*進的 (SoTA) 模型，但它們的架構(gòu)幾乎相同。*的主要區(qū)別是規(guī)模。

　　Etched相信硬件彩票(hardware lottery)：獲勝的模型是那些可以在硬件上運行速度最快、成本*的模型。Transformer 功能強大、實用且利潤豐厚，足以在替代品出現(xiàn)之前主宰每個主要的 AI 計算市場：

　　Transformer 為每一種大型 AI 產(chǎn)品提供動力：從代理到搜索再到聊天。AI 實驗室已花費數(shù)億美元進行研發(fā)，以優(yōu)化 GPU 以適應(yīng) Transformer。當前和下一代*進的模型都是 Transformer。

　　隨著模型在未來幾年從 10 億美元擴展到 100 億美元再到 1000 億美元的訓(xùn)練運行，測試新架構(gòu)的風險飆升。與其重新測試縮放定律和性能，不如花時間在 Transformer 之上構(gòu)建功能，例如多token預(yù)測。

　　當今的軟件堆棧針對 Transformer 進行了優(yōu)化。每個流行的庫(TensorRT-LLM、vLLM、Huggingface TGI 等)都有用于在 GPU 上運行 Transformer 模型的特殊內(nèi)核。許多基于 transformer 構(gòu)建的功能在替代方案中都不容易獲得支持(例如推測解碼、樹搜索)。

　　未來的硬件堆棧將針對 transformer 進行優(yōu)化。NVIDIA 的 GB200 特別支持 transformer(TransformerEngine)。像 Sohu 這樣的 ASIC 進入市場標志著不歸路。Transformer 殺手在 GPU 上的運行速度需要比 transformer 在 Sohu 上運行的速度更快。如果發(fā)生這種情況，我們也會為此構(gòu)建一個 ASIC!

　　兩個哈佛輟學(xué)生創(chuàng)立芯片公司

　　隨著生成式人工智能觸及越來越多的行業(yè)，生產(chǎn)運行這些模型的芯片的公司受益匪淺。尤其是英偉達，其影響力巨大，占據(jù)了人工智能芯片市場約70% 至 95% 的份額。從Meta到微軟，云提供商都在英偉達 GPU 上投入了數(shù)十億美元，擔心在生成式人工智能競賽中落后。

　　因此，生成式人工智能供應(yīng)商對現(xiàn)狀不滿也是可以理解的。他們的成功很大程度上取決于主流芯片制造商的意愿。因此，他們與機會主義風險投資公司一起，正在尋找有前途的新興企業(yè)來挑戰(zhàn)人工智能芯片巨頭。

　　Etched是眾多爭奪一席之地的另類芯片公司之一，但它也是最有趣的公司之一。Etched 成立僅兩年，由兩位哈佛輟學(xué)生 Gavin Uberti(前OctoML和前Xnor.ai員工)和 Chris Zhu 創(chuàng)立，他們與 Robert Wachen 和前賽普拉斯半導(dǎo)體公司首席技術(shù)官 Mark Ross 一起，試圖創(chuàng)造一種可以做一件事的芯片：運行 AI 模型。

　　這并不罕見，許多初創(chuàng)公司和科技巨頭都在開發(fā)專門運行人工智能模型的芯片，也稱為推理芯片。Meta 有MTIA，亞馬遜有Graviton和Inferentia等等。但 Etched 的芯片的獨特之處在于它們只運行一種類型的模型：Transformers。

　　Transformer 由谷歌研究團隊于 2017 年提出，目前已成為主流的生成式 AI 模型架構(gòu)。

　　Transformer 是 OpenAI 視頻生成模型Sora的基礎(chǔ)。它們是 Anthropic 的Claude和谷歌的Gemini等文本生成模型的核心。它們還為最新版本的 Stable Diffusion等藝術(shù)生成器提供動力。

　　在一篇新博客文章中，Etched創(chuàng)始人表示，該公司在 2022 年 6 月對人工智能進行了*的押注，當時它押注一種新的人工智能模型將接管世界：Transformer。

　　在Etched看來，五年內(nèi)，AI 模型在大多數(shù)標準化測試中都比人類更聰明。

　　怎么會這樣?因為 Meta 訓(xùn)練 Llama 400B(2024 SoTA，比大多數(shù)人類更聰明)所用的計算量是 OpenAI 在 GPT-2(2019 SoTA)上所用的 50,000 倍。

　　通過為 AI 模型提供更多計算和更好的數(shù)據(jù)，它們會變得更聰明。規(guī)模是幾十年來*持續(xù)有效的秘訣，每家大型 AI 公司(谷歌、OpenAI / 微軟、Anthropic / 亞馬遜等)都將在未來幾年投入超過 1000 億美元來保持規(guī)模。我們正處于有史以來*的基礎(chǔ)設(shè)施建設(shè)中。

　　但再擴大 1,000 倍將非常昂貴。下一代數(shù)據(jù)中心的成本將超過一個小國的 GDP。按照目前的速度，我們的硬件、電網(wǎng)和錢包都跟不上。

　　我們并不擔心數(shù)據(jù)耗盡。無論是通過合成數(shù)據(jù)、注釋管道還是新的 AI 標記數(shù)據(jù)源，我們都認為數(shù)據(jù)問題實際上是推理計算問題。Mark Zuckerberg4、Dario Amodei5 和 Demis Hassabis6似乎同意這一觀點。

　　“2022 年，我們打賭Transformer將統(tǒng)治世界，”Etched 首席執(zhí)行官 Uberti 在接受 TechCrunch 采訪時表示。“在人工智能的發(fā)展中，我們已經(jīng)達到了一個節(jié)點，性能優(yōu)于通用 GPU 的專用芯片是不可避免的——全世界的技術(shù)決策者都知道這一點。”

　　當時，AI 模型種類繁多，有用于自動駕駛汽車的 CNN、用于語言的 RNN 以及用于生成圖像和視頻的 U-Net。然而，Transformer(ChatGPT 中的“T”)是*個可以擴展的模型。

　　首席執(zhí)行官 Gavin Uberti 在博文中表示：“我們打賭，如果智能隨著計算不斷擴展，幾年之內(nèi)，公司將在 AI 模型上投入數(shù)十億美元，所有模型都在專用芯片上運行。”“我們花了兩年時間打造了世界上*款Transformer專用芯片 (ASIC) Sohu。我們將Transformer架構(gòu)刻錄到我們的芯片中，我們無法運行傳統(tǒng)的 AI 模型：為您的 Instagram 提要提供支持的 DLRM、來自生物實驗室的蛋白質(zhì)折疊模型或數(shù)據(jù)科學(xué)中的線性回歸。”

　　一顆名為“sohu”的4nm芯片

　　Etched 的芯片名為 Sohu，是一款 ASIC(專用集成電路)。Uberti 聲稱，Sohu 采用臺積電的 4nm 工藝制造，可以提供比 GPU 和其他通用 AI 芯片更好的推理性能，同時消耗更少的能源。

　　Uberti 表示：“在運行文本、圖像和視頻轉(zhuǎn)換器時，Sohu 的速度甚至比 Nvidia 的下一代 Blackwell GB200 GPU 快一個數(shù)量級，而且成本更低。一臺 Sohu 服務(wù)器可取代 160 個 H100 GPU。……對于需要專用芯片的企業(yè)*來說，Sohu 將是一個更經(jīng)濟、更高效、更環(huán)保的選擇。”

　　Uberti 補充道：“我們也無法運行 CNN、RNN 或 LSTM。但對于 transformer 來說，Sohu 是有史以來最快的芯片。它甚至沒有競爭對手。Sohu 的速度甚至比 Nvidia 的下一代 Blackwell (GB200) GPU 快一個數(shù)量級，而且更便宜，適用于文本、音頻、圖像和視頻 transformer。”

　　Uberti表示，自他們成立以來，每個主要的 AI 模型(ChatGPT、Sora、Gemini、Stable Diffusion 3、Tesla FSD 等)都變成了 transformer。不過，如果 transformer 突然被 SSM、monarch 混合器或任何其他類型的架構(gòu)取代，Etched 的芯片將毫無用處。

　　“但如果我們是對的，Sohu將改變世界，”Uber信心滿滿地說。

　　通過專業(yè)化，Sohu獲得了前所未有的性能。一臺 8xSohu 服務(wù)器每秒可以處理超過 500,000 個 Llama 70B token。

　　據(jù)介紹，Sohu 僅支持轉(zhuǎn)換器推理，無論是 Llama 還是 Stable Diffusion 3。Sohu 支持當今的所有模型(Google、Meta、Microsoft、OpenAI、Anthropic 等)，并且可以處理對未來模型的調(diào)整。

　　由于 Sohu 只能運行一種算法，因此可以刪除絕大多數(shù)控制流邏輯，從而允許它擁有更多的數(shù)學(xué)塊。因此，Sohu 擁有超過 90% 的 FLOPS 利用率(而使用 TRT-LLM 的 GPU7 上約為 30%)。

　　強悍性能，如何做到？

　　Sohu是如何實現(xiàn)這一切的?有幾種方法，但最明顯(也是最直觀)的方法是簡化推理硬件和軟件管道。由于Sohu不運行非transformer模型，因此 Etched 團隊可以取消與transformer無關(guān)的硬件組件，并削減傳統(tǒng)上用于部署和運行非transformer的軟件開銷。

　　Etched在一篇博客文章中表示，NVIDIA H200 擁有 989 TFLOPS 沒有稀疏性的 FP16/BF16 計算能力。這是*進的(甚至比谷歌的新 Trillium 芯片還要好)，而 2025 年推出的 GB200 的計算能力僅增加了 25%(每個die 1250 TFLOPS)。

　　由于 GPU 的絕大部分區(qū)域都用于可編程性，因此專注于transformer可以讓您進行更多的計算。您可以從*原理向自己證明這一點：

　　構(gòu)建單個 FP16/BF16/FP8 乘加電路需要 10,000 個晶體管，這是所有矩陣數(shù)學(xué)的基石。H100 SXM 有 528 個張量核心，每個都有 4 × 8 × 16 FMA 電路。乘法告訴我們 H100 有 27 億個專用于張量核心的晶體管。

　　但 H100 有 800 億個晶體管12!這意味著 H100 GPU 上只有 3.3% 的晶體管用于矩陣乘法!

　　這是 NVIDIA 和其他靈活 AI 芯片經(jīng)過深思熟慮的設(shè)計決定。如果您想支持各種模型(CNN、LSTM、SSM 等)，沒有比這更好的了。

　　通過僅運行 Transformer，Etched可以在芯片上安裝更多的 FLOPS，而無需降低精度或稀疏性。

　　有觀點認為，推理的瓶頸是內(nèi)存帶寬，而不是計算?事實上，對于像 Llama-3 這樣的現(xiàn)代模型來說，答案是顯而易見的!

　　讓我們使用 NVIDIA 和 AMD 的標準基準：2048 個輸入tokens和 128 個輸出tokens。大多數(shù) AI 產(chǎn)品的prompts 比completions時間長得多(即使是新的 Claude 聊天在系統(tǒng)提示中也有 1,000 多個tokens)。

　　在 GPU 和Sohu上，推理是分批(batches)運行的。每個批次都會加載所有模型權(quán)重一次，并在批次中的每個標記中重復(fù)使用它們。通常，LLM 輸入是計算密集型的，而 LLM 輸出是內(nèi)存密集型的。當我們將輸入和輸出token與連續(xù)批處理相結(jié)合時，工作負載會變得非常受計算密集型。

　　下面是 LLM 連續(xù)批處理的一個例子。在這里，我們正在運行具有四個輸入標記和四個輸出標記的序列;每種顏色都是不同的序列。

　　我們可以擴展相同的技巧來運行具有 2048 個輸入token和 128 個輸出token的 Llama-3-70B。讓每個批次包含一個序列的 2048 個輸入token和 127 個不同序列的 127 個輸出tome。

　　如果我們這樣做，每個批次將需要大約 (2048 + 127) × 70B 參數(shù) × 每個參數(shù) 2 字節(jié) = 304 TFLOP，而只需加載 70B 參數(shù) × 每個參數(shù) 2 字節(jié) = 140 GB 的模型權(quán)重和大約 127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 緩存權(quán)重。這比內(nèi)存帶寬要多得多：H200 需要 6.8 PFLOPS 的計算才能*限度地利用其內(nèi)存帶寬。這是利用率為 100% 的情況 - 如果利用率為 30%，則需要 3 倍以上的內(nèi)存。

　　由于Sohu擁有如此多的計算能力和極高的利用率，我們可以運行巨大的吞吐量，而不會出現(xiàn)內(nèi)存帶寬瓶頸。

　　而在現(xiàn)實世界中，批次要大得多，輸入長度各不相同，請求以泊松分布(Poisson distribution)到達。這種技術(shù)在這些情況下效果更好，但我們在此示例中使用 2048/128 基準，因為 NVIDIA 和 AMD 使用它。

　　眾所周知，在 GPU 和 TPU 上，軟件是一場噩夢。處理任意 CUDA 和 PyTorch 代碼需要非常復(fù)雜的編譯器。第三方 AI 芯片(AMD、Intel、AWS 等)在軟件上花費了數(shù)十億美元，但收效甚微。

　　但由于Sohu只運行 transformer，我們只需要為 transformer 編寫軟件!

　　大多數(shù)運行開源或內(nèi)部模型的公司都使用特定于 transformer 的推理庫，如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。這些框架非常僵化 - 雖然你可以調(diào)整模型超參數(shù)，但實際上不支持更改底層模型代碼。但這沒關(guān)系 - 因為所有 transformer 模型都非常相似(甚至是文本/圖像/視頻模型)，調(diào)整超參數(shù)就是你真正需要的。

　　雖然這支持 95% 的 AI 公司，但*的 AI 實驗室采用定制。他們有工程師團隊手動調(diào)整 GPU 內(nèi)核以擠出稍微更多的利用率，逆向工程哪些寄存器對每個張量核心的延遲*。

　　有了 Etched，您無需再進行逆向工程 - 因為Etched的軟件(從驅(qū)動程序到內(nèi)核再到服務(wù)堆棧)都將是開源的。如果您想實現(xiàn)自定義轉(zhuǎn)換層，您的內(nèi)核向?qū)Э梢宰杂傻剡@樣做。

　　Etched將成為全球*

　　Uberti說，每一個大型同質(zhì)計算市場最終都會以專用芯片結(jié)束：網(wǎng)絡(luò)、比特幣挖掘、高頻交易算法都被硬編碼到硅片中。

　　這些芯片的速度比 GPU 快幾個數(shù)量級。沒有一家公司使用 GPU 來挖掘比特幣——他們根本無法與專業(yè)的比特幣礦工競爭。人工智能也會發(fā)生這種情況。Uberti 說，由于涉及數(shù)萬億美元，專用是不可避免的。

　　“我們認為，絕大部分支出(和價值)將用于具有超過 10 萬億個參數(shù)的模型。由于連續(xù)批處理的經(jīng)濟性，這些模型將在數(shù)十個 MegaClusters 之一的云端運行，”Uberti 說。“這種趨勢將反映芯片工廠：過去有數(shù)百個廉價的低分辨率工廠，而現(xiàn)在，高分辨率工廠的建設(shè)成本約為 200 億至 400 億美元。世界上只有少數(shù)幾個 MegaFab，它們都使用非常相似的底層架構(gòu)(EUV、858 平方毫米掩模版、300 毫米晶圓等)。”

　　Etched 表示，Transformer 的轉(zhuǎn)換成本非常高。即使發(fā)明了一種比 Transformer 更好的新架構(gòu)，重寫內(nèi)核、重建推測解碼等功能、構(gòu)建新的專用硬件、重新測試縮放定律以及重新培訓(xùn)團隊的阻力也是巨大的。Uberti 表示，這種情況十年內(nèi)只會發(fā)生一兩次，就像芯片領(lǐng)域發(fā)生的情況一樣：光刻技術(shù)、掩模版/晶圓尺寸和光刻膠成分的變化確實會繼續(xù)發(fā)生，但變化速度非常緩慢。

　　“我們擴展 AI 模型的程度越高，我們就越會集中于模型架構(gòu)。創(chuàng)新將發(fā)生在其他地方：推測解碼、樹搜索和新的采樣算法，”Uberti 說。“在一個模型訓(xùn)練成本為 100 億美元、芯片制造成本為 5000 萬美元的世界里，專用芯片是不可避免的。*制造它們的公司將獲勝。”

　　Etched 斷言，從來沒有人制造過特定架構(gòu)的 AI 芯片。即使在去年，這也毫無意義。特定架構(gòu)的芯片需要巨大的需求和對其持久力的堅定信念。

　　Uberti表示：“我們把賭注押在了Transformer 上，這兩個要求都正在成為現(xiàn)實。”

　　該公司指出，市場需求已達到前所未有的水平。Transformer 推理市場剛開始時不到 5000 萬美元，而現(xiàn)在已超過 50 億美元。所有大型科技公司都在使用 Transformer 模型(OpenAI、谷歌、亞馬遜、微軟、Facebook 等)。

　　Uberti 表示，他們正在看到架構(gòu)融合：過去，AI 模型會發(fā)生很大變化。但自 GPT-2 以來，*進的模型架構(gòu)幾乎保持不變。OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa，甚至 Tesla FSD 都是Transformer 。

　　Uberti 表示，公司正以極快的速度努力將Sohu變成現(xiàn)實。

　　Uberti 強調(diào)：“公司正朝著有史以來最快的速度推進，從架構(gòu)到驗證硅片，以用于 4nm 光罩大小的芯片。”“我們直接與臺積電合作，并從兩家*供應(yīng)商處雙源采購 HBM3E。我們從 AI 和基礎(chǔ)模型公司獲得了數(shù)千萬美元的預(yù)訂，并且擁有充足的供應(yīng)鏈能力來擴展。如果我們的賭注正確并且我們執(zhí)行，Etched 將成為世界上*的公司之一。”

　　該公司重申，如果這一預(yù)測正確，Sohu將改變世界。

　　如今，AI 編碼代理的計算成本為 60 美元/小時，并且需要數(shù)小時才能完成任務(wù)，Gemini 需要 60 多秒才能回答有關(guān)視頻的問題16。編碼代理的成本高于軟件工程師，并且需要數(shù)小時才能完成任務(wù)。視頻模型每秒生成一幀，甚至當 ChatGPT 注冊用戶達到 1000 萬時(僅占全球的 0.15%)，OpenAI 也耗盡了 GPU 容量。

　　我們無法解決這個問題 - 即使我們繼續(xù)以每兩年 2.5 倍的速度制造更大的 GPU，也需要十年才能實現(xiàn)實時視頻生成。

　　你設(shè)想一下，如果人工智能模型一夜之間速度提高 20 倍且成本降低，會發(fā)生什么?有了Sohu，實時視頻、音頻、代理和搜索終于成為可能。Uberti 表示，每款 AI 產(chǎn)品的單位經(jīng)濟效益將在一夜之間發(fā)生逆轉(zhuǎn)。

　　據(jù)透露，該公司的早期客戶已經(jīng)預(yù)訂了數(shù)千萬美元的硬件。

　　在被問到 Etched 這樣的小公司如何能擊敗 Nvidia。Etched 首席運營官聯(lián)合創(chuàng)始人 Robert Wachen 在給 VentureBeat 的電子郵件中說：

　　“過去，AI 計算市場是分散的：人們使用不同類型的模型，例如 CNN、DLRM、LSTM、RNN 以及跨領(lǐng)域的數(shù)十種其他模型。每種架構(gòu)的支出都在數(shù)千萬到數(shù)億美元之間，而這些工作負載的市場足夠大，通用芯片 (GPU) 可以勝出，”Wachen 說道。

　　他指出，市場正在迅速整合為一種架構(gòu)：Transformer。在人們花費數(shù)十億美元購買變壓器模型、定制芯片花費 5000 萬至 1 億美元的世界里，專用芯片是不可避免的。

　　“我們的芯片在大多數(shù)工作負載下都無法擊敗 GPU——我們無法支持它們。但是，對于變壓器推理(為每種主要的“生成式 AI”產(chǎn)品提供支持)，我們將清除市場。通過如此專業(yè)化，我們的芯片比下一代 Blackwell GPU 快一個數(shù)量級，”Wachen 說道。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信