E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來電”有詐?抖音客服上線“驗證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運營商e&,展示全球首個固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運營商11月成績單:用戶數(shù)據(jù)增幅放緩打造下一個英偉達,孫正義的2026芯片計劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢AI時代云安全新范式,暢捷通智能守護小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強金融大模型 Baichuan4-Finance年末家電消費觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型
  • 首頁 > 云計算頻道 > 大模型

    哈佛輟學(xué)生搞AI芯片公司:融資1.2億美元,面向一個模型

    2024年06月26日 09:41:17   來源:微信公眾號:半導(dǎo)體行業(yè)觀察

      近日,AI芯片初創(chuàng)公司Etched宣布,已籌集 1.2 億美元,向 Nvidia 發(fā)起 AI 芯片設(shè)計挑戰(zhàn)。

      Etched 正在設(shè)計一款名為 Sohu 的新芯片,用于處理 AI 處理的一個關(guān)鍵部分:Transformation。該公司表示,通過將 Transformer 架構(gòu)刻錄到芯片中,它正在打造世界上最強大的 Transformer 推理服務(wù)器。Etched 表示,這是有史以來最快的 Transformer 芯片。

      Primary Venture Partners 和 Positive Sum Ventures 領(lǐng)投了此輪融資,并獲得了 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures(戰(zhàn)略)和 Skybox Data Centers(戰(zhàn)略)等機構(gòu)投資者的支持。

      值得一提的是,該公司的天使投資人包括 Peter Thiel、Stanley Druckenmiller、  David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim 和 Charlie Cheeve。

      泰爾獎學(xué)金主任亞歷克斯·漢迪 (Alex Handy) 在一份聲明中表示:“投資 Etched 是對人工智能價值的戰(zhàn)略押注。他們的芯片解決了競爭對手不敢解決的可擴展性問題,挑戰(zhàn)了同行普遍存在的停滯不前現(xiàn)象。Etched 的創(chuàng)始人體現(xiàn)了我們支持的非傳統(tǒng)人才——從哈佛輟學(xué),進軍半導(dǎo)體行業(yè)。他們付出了艱苦的努力,以便硅谷的其他人可以繼續(xù)安心地編程,而不必擔心他們正在研究的任何底層技術(shù)。”

      Etched創(chuàng)始人:Robert Wachen、Gavin Uberti、Chris Zhu

      Transformer一統(tǒng)江湖, GPU撞墻

      正如大家所所看到的,過去解決AI問題,都是考GPU。不過Etched在博客中表示,圣克拉拉的秘密是,GPU 并沒有變得更好,而是變得更大了。四年來,芯片單位面積的計算能力 (TFLOPS) 幾乎保持不變。

      他們表示,NVIDIA 的 B200、AMD 的 MI300、英特爾的 Gaudi 3 和亞馬遜的 Trainium2 都將兩塊芯片算作一張卡,以實現(xiàn)“雙倍”性能。從 2022 年到 2025 年,AI 芯片并沒有真正變得更好,而是變得更大了。2022 年到 2025 年,所有 GPU 性能提升都使用了這個技巧,但Etched 除外。

      在 transformer 統(tǒng)治世界之前,許多公司都構(gòu)建了靈活的 AI 芯片和 GPU 來處理數(shù)百種不同的架構(gòu)。以下列舉一些:

      NVIDIA的GPUs、Google的TPUs、Amazon的Trainium、AMD的加速器、Graphcore的IPUs、SambaNova SN Series、Cerebras的CS-2、Groq的GroqNode、Tenstorrent的Grayskull、D-Matrix的Corsair、Cambricon的Siyuan和Intel的Gaudi.

      從來沒有人制造過專門針對算法的 AI 芯片 (ASIC)。芯片項目的成本為 5000 萬至 1 億美元,需要數(shù)年時間才能投入生產(chǎn)。我們剛開始時,沒有市場。

      突然間,情況發(fā)生了變化:

      前所未有的需求:在 ChatGPT 之前,Transformer 推理的市場約為 5000 萬美元,現(xiàn)在則達到數(shù)十億美元。所有大型科技公司都使用 Transformer 模型(OpenAI、谷歌、亞馬遜、微軟、Facebook 等)。

      架構(gòu)上的融合:AI 模型過去變化很大。但自 GPT-2 以來,*進的模型架構(gòu)幾乎保持不變!OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,甚至 Tesla FSD 都是 Transformer。

      當模型的訓(xùn)練成本超過 10 億美元,推理成本超過 100 億美元時,專用芯片是不可避免的。在這個規(guī)模下,1% 的改進將證明 5000 萬至 1 億美元的定制芯片項目是合理的。

      事實上,ASIC 的速度比 GPU 快幾個數(shù)量級。當比特幣礦機于 2014 年進入市場時,丟棄 GPU 比使用它們來挖掘比特幣更便宜。

      由于涉及數(shù)十億美元的資金,人工智能也將發(fā)生同樣的情況。

      Transformer 驚人地相似:諸如 SwiGLU 激活和 RoPE 編碼之類的調(diào)整隨處可見:LLM、嵌入模型、圖像修復(fù)和視頻生成。

      雖然 GPT-2 和 Llama-3 是相隔五年的*進的 (SoTA) 模型,但它們的架構(gòu)幾乎相同。*的主要區(qū)別是規(guī)模。

      Etched相信硬件彩票(hardware lottery):獲勝的模型是那些可以在硬件上運行速度最快、成本*的模型。Transformer 功能強大、實用且利潤豐厚,足以在替代品出現(xiàn)之前主宰每個主要的 AI 計算市場:

      Transformer 為每一種大型 AI 產(chǎn)品提供動力:從代理到搜索再到聊天。AI 實驗室已花費數(shù)億美元進行研發(fā),以優(yōu)化 GPU 以適應(yīng) Transformer。當前和下一代*進的模型都是 Transformer。

      隨著模型在未來幾年從 10 億美元擴展到 100 億美元再到 1000 億美元的訓(xùn)練運行,測試新架構(gòu)的風險飆升。與其重新測試縮放定律和性能,不如花時間在 Transformer 之上構(gòu)建功能,例如多token預(yù)測。

      當今的軟件堆棧針對 Transformer 進行了優(yōu)化。每個流行的庫(TensorRT-LLM、vLLM、Huggingface TGI 等)都有用于在 GPU 上運行 Transformer 模型的特殊內(nèi)核。許多基于 transformer 構(gòu)建的功能在替代方案中都不容易獲得支持(例如推測解碼、樹搜索)。

      未來的硬件堆棧將針對 transformer 進行優(yōu)化。NVIDIA 的 GB200 特別支持 transformer(TransformerEngine)。像 Sohu 這樣的 ASIC 進入市場標志著不歸路。Transformer 殺手在 GPU 上的運行速度需要比 transformer 在 Sohu 上運行的速度更快。如果發(fā)生這種情況,我們也會為此構(gòu)建一個 ASIC!

      兩個哈佛輟學(xué)生創(chuàng)立芯片公司

      隨著生成式人工智能觸及越來越多的行業(yè),生產(chǎn)運行這些模型的芯片的公司受益匪淺。尤其是英偉達,其影響力巨大,占據(jù)了人工智能芯片市場約70% 至 95% 的份額。從Meta到微軟,云提供商都在英偉達 GPU 上投入了數(shù)十億美元,擔心在生成式人工智能競賽中落后。

      因此,生成式人工智能供應(yīng)商對現(xiàn)狀不滿也是可以理解的。他們的成功很大程度上取決于主流芯片制造商的意愿。因此,他們與機會主義風險投資公司一起,正在尋找有前途的新興企業(yè)來挑戰(zhàn)人工智能芯片巨頭。

      Etched是眾多爭奪一席之地的另類芯片公司之一,但它也是最有趣的公司之一。Etched 成立僅兩年,由兩位哈佛輟學(xué)生 Gavin Uberti(前OctoML和前Xnor.ai員工)和 Chris Zhu 創(chuàng)立,他們與 Robert Wachen 和前賽普拉斯半導(dǎo)體公司首席技術(shù)官 Mark Ross 一起,試圖創(chuàng)造一種可以做一件事的芯片:運行 AI 模型。

      這并不罕見,許多初創(chuàng)公司和科技巨頭都在開發(fā)專門運行人工智能模型的芯片,也稱為推理芯片。Meta 有MTIA,亞馬遜有Graviton和Inferentia等等。但 Etched 的芯片的獨特之處在于它們只運行一種類型的模型:Transformers。

      Transformer 由谷歌研究團隊于 2017 年提出,目前已成為主流的生成式 AI 模型架構(gòu)。

      Transformer 是 OpenAI 視頻生成模型Sora的基礎(chǔ)。它們是 Anthropic 的Claude和谷歌的Gemini等文本生成模型的核心。它們還為最新版本的 Stable Diffusion等藝術(shù)生成器提供動力。

      在一篇新博客文章中,Etched創(chuàng)始人表示,該公司在 2022 年 6 月對人工智能進行了*的押注,當時它押注一種新的人工智能模型將接管世界:Transformer。

      在Etched看來,五年內(nèi),AI 模型在大多數(shù)標準化測試中都比人類更聰明。

      怎么會這樣?因為 Meta 訓(xùn)練 Llama 400B(2024 SoTA,比大多數(shù)人類更聰明)所用的計算量是 OpenAI 在 GPT-2(2019 SoTA)上所用的 50,000 倍。

      通過為 AI 模型提供更多計算和更好的數(shù)據(jù),它們會變得更聰明。規(guī)模是幾十年來*持續(xù)有效的秘訣,每家大型 AI 公司(谷歌、OpenAI / 微軟、Anthropic / 亞馬遜等)都將在未來幾年投入超過 1000 億美元來保持規(guī)模。我們正處于有史以來*的基礎(chǔ)設(shè)施建設(shè)中。

      但再擴大 1,000 倍將非常昂貴。下一代數(shù)據(jù)中心的成本將超過一個小國的 GDP。按照目前的速度,我們的硬件、電網(wǎng)和錢包都跟不上。

      我們并不擔心數(shù)據(jù)耗盡。無論是通過合成數(shù)據(jù)、注釋管道還是新的 AI 標記數(shù)據(jù)源,我們都認為數(shù)據(jù)問題實際上是推理計算問題。Mark Zuckerberg4、Dario Amodei5 和 Demis Hassabis6似乎同意這一觀點。

      “2022 年,我們打賭Transformer將統(tǒng)治世界,”Etched 首席執(zhí)行官 Uberti 在接受 TechCrunch 采訪時表示。“在人工智能的發(fā)展中,我們已經(jīng)達到了一個節(jié)點,性能優(yōu)于通用 GPU 的專用芯片是不可避免的——全世界的技術(shù)決策者都知道這一點。”

      當時,AI 模型種類繁多,有用于自動駕駛汽車的 CNN、用于語言的 RNN 以及用于生成圖像和視頻的 U-Net。然而,Transformer(ChatGPT 中的“T”)是*個可以擴展的模型。

      首席執(zhí)行官 Gavin Uberti 在博文中表示:“我們打賭,如果智能隨著計算不斷擴展,幾年之內(nèi),公司將在 AI 模型上投入數(shù)十億美元,所有模型都在專用芯片上運行。”“我們花了兩年時間打造了世界上*款Transformer專用芯片 (ASIC) Sohu。我們將Transformer架構(gòu)刻錄到我們的芯片中,我們無法運行傳統(tǒng)的 AI 模型:為您的 Instagram 提要提供支持的 DLRM、來自生物實驗室的蛋白質(zhì)折疊模型或數(shù)據(jù)科學(xué)中的線性回歸。”

      一顆名為“sohu”的4nm芯片

      Etched 的芯片名為 Sohu,是一款 ASIC(專用集成電路)。Uberti 聲稱,Sohu 采用臺積電的 4nm 工藝制造,可以提供比 GPU 和其他通用 AI 芯片更好的推理性能,同時消耗更少的能源。

      Uberti 表示:“在運行文本、圖像和視頻轉(zhuǎn)換器時,Sohu 的速度甚至比 Nvidia 的下一代 Blackwell GB200 GPU 快一個數(shù)量級,而且成本更低。一臺 Sohu 服務(wù)器可取代 160 個 H100 GPU。……對于需要專用芯片的企業(yè)*來說,Sohu 將是一個更經(jīng)濟、更高效、更環(huán)保的選擇。”

      Uberti 補充道:“我們也無法運行 CNN、RNN 或 LSTM。但對于 transformer 來說,Sohu 是有史以來最快的芯片。它甚至沒有競爭對手。Sohu 的速度甚至比 Nvidia 的下一代 Blackwell (GB200) GPU 快一個數(shù)量級,而且更便宜,適用于文本、音頻、圖像和視頻 transformer。”

      Uberti表示,自他們成立以來,每個主要的 AI 模型(ChatGPT、Sora、Gemini、Stable Diffusion 3、Tesla FSD 等)都變成了 transformer。不過,如果 transformer 突然被 SSM、monarch 混合器或任何其他類型的架構(gòu)取代,Etched 的芯片將毫無用處。

      “但如果我們是對的,Sohu將改變世界,”Uber信心滿滿地說。

      通過專業(yè)化,Sohu獲得了前所未有的性能。一臺 8xSohu 服務(wù)器每秒可以處理超過 500,000 個 Llama 70B token。

      據(jù)介紹,Sohu 僅支持轉(zhuǎn)換器推理,無論是 Llama 還是 Stable Diffusion 3。Sohu 支持當今的所有模型(Google、Meta、Microsoft、OpenAI、Anthropic 等),并且可以處理對未來模型的調(diào)整。

      由于 Sohu 只能運行一種算法,因此可以刪除絕大多數(shù)控制流邏輯,從而允許它擁有更多的數(shù)學(xué)塊。因此,Sohu 擁有超過 90% 的 FLOPS 利用率(而使用 TRT-LLM 的 GPU7 上約為 30%)。

      強悍性能,如何做到?

      Sohu是如何實現(xiàn)這一切的?有幾種方法,但最明顯(也是最直觀)的方法是簡化推理硬件和軟件管道。由于Sohu不運行非transformer模型,因此 Etched 團隊可以取消與transformer無關(guān)的硬件組件,并削減傳統(tǒng)上用于部署和運行非transformer的軟件開銷。

      Etched在一篇博客文章中表示,NVIDIA H200 擁有 989 TFLOPS 沒有稀疏性的 FP16/BF16 計算能力。這是*進的(甚至比谷歌的新 Trillium 芯片還要好),而 2025 年推出的 GB200 的計算能力僅增加了 25%(每個die 1250 TFLOPS)。

      由于 GPU 的絕大部分區(qū)域都用于可編程性,因此專注于transformer可以讓您進行更多的計算。您可以從*原理向自己證明這一點:

      構(gòu)建單個 FP16/BF16/FP8 乘加電路需要 10,000 個晶體管,這是所有矩陣數(shù)學(xué)的基石。H100 SXM 有 528 個張量核心,每個都有 4 × 8 × 16 FMA 電路。乘法告訴我們 H100 有 27 億個專用于張量核心的晶體管。

      但 H100 有 800 億個晶體管12!這意味著 H100 GPU 上只有 3.3% 的晶體管用于矩陣乘法!

      這是 NVIDIA 和其他靈活 AI 芯片經(jīng)過深思熟慮的設(shè)計決定。如果您想支持各種模型(CNN、LSTM、SSM 等),沒有比這更好的了。

      通過僅運行 Transformer,Etched可以在芯片上安裝更多的 FLOPS,而無需降低精度或稀疏性。

      有觀點認為,推理的瓶頸是內(nèi)存帶寬,而不是計算?事實上,對于像 Llama-3 這樣的現(xiàn)代模型來說,答案是顯而易見的!

      讓我們使用 NVIDIA 和 AMD 的標準基準 :2048 個輸入tokens和 128 個輸出tokens。大多數(shù) AI 產(chǎn)品的prompts 比completions時間長得多(即使是新的 Claude 聊天在系統(tǒng)提示中也有 1,000 多個tokens)。

      在 GPU 和Sohu上,推理是分批(batches)運行的。每個批次都會加載所有模型權(quán)重一次,并在批次中的每個標記中重復(fù)使用它們。通常,LLM 輸入是計算密集型的,而 LLM 輸出是內(nèi)存密集型的。當我們將輸入和輸出token與連續(xù)批處理相結(jié)合時,工作負載會變得非常受計算密集型。

      下面是 LLM 連續(xù)批處理的一個例子。在這里,我們正在運行具有四個輸入標記和四個輸出標記的序列;每種顏色都是不同的序列。

      我們可以擴展相同的技巧來運行具有 2048 個輸入token和 128 個輸出token的 Llama-3-70B。讓每個批次包含一個序列的 2048 個輸入token和 127 個不同序列的 127 個輸出tome。

      如果我們這樣做,每個批次將需要大約 (2048 + 127) × 70B 參數(shù) × 每個參數(shù) 2 字節(jié) = 304 TFLOP,而只需加載 70B 參數(shù) × 每個參數(shù) 2 字節(jié) = 140 GB 的模型權(quán)重和大約 127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 緩存權(quán)重。這比內(nèi)存帶寬要多得多:H200 需要 6.8 PFLOPS 的計算才能*限度地利用其內(nèi)存帶寬。這是利用率為 100% 的情況 - 如果利用率為 30%,則需要 3 倍以上的內(nèi)存。

      由于Sohu擁有如此多的計算能力和極高的利用率,我們可以運行巨大的吞吐量,而不會出現(xiàn)內(nèi)存帶寬瓶頸。

      而在現(xiàn)實世界中,批次要大得多,輸入長度各不相同,請求以泊松分布(Poisson distribution)到達。這種技術(shù)在這些情況下效果更好,但我們在此示例中使用 2048/128 基準,因為 NVIDIA 和 AMD 使用它。

      眾所周知,在 GPU 和 TPU 上,軟件是一場噩夢。處理任意 CUDA 和 PyTorch 代碼需要非常復(fù)雜的編譯器。第三方 AI 芯片(AMD、Intel、AWS 等)在軟件上花費了數(shù)十億美元,但收效甚微。

      但由于Sohu只運行 transformer,我們只需要為 transformer 編寫軟件!

      大多數(shù)運行開源或內(nèi)部模型的公司都使用特定于 transformer 的推理庫,如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。這些框架非常僵化 - 雖然你可以調(diào)整模型超參數(shù),但實際上不支持更改底層模型代碼。但這沒關(guān)系 - 因為所有 transformer 模型都非常相似(甚至是文本/圖像/視頻模型),調(diào)整超參數(shù)就是你真正需要的。

      雖然這支持 95% 的 AI 公司,但*的 AI 實驗室采用定制。他們有工程師團隊手動調(diào)整 GPU 內(nèi)核以擠出稍微更多的利用率,逆向工程哪些寄存器對每個張量核心的延遲*。

      有了 Etched,您無需再進行逆向工程 - 因為Etched的軟件(從驅(qū)動程序到內(nèi)核再到服務(wù)堆棧)都將是開源的。如果您想實現(xiàn)自定義轉(zhuǎn)換層,您的內(nèi)核向?qū)Э梢宰杂傻剡@樣做。

      Etched將成為全球*

      Uberti說,每一個大型同質(zhì)計算市場最終都會以專用芯片結(jié)束:網(wǎng)絡(luò)、比特幣挖掘、高頻交易算法都被硬編碼到硅片中。

      這些芯片的速度比 GPU 快幾個數(shù)量級。沒有一家公司使用 GPU 來挖掘比特幣——他們根本無法與專業(yè)的比特幣礦工競爭。人工智能也會發(fā)生這種情況。Uberti 說,由于涉及數(shù)萬億美元,專用是不可避免的。

      “我們認為,絕大部分支出(和價值)將用于具有超過 10 萬億個參數(shù)的模型。由于連續(xù)批處理的經(jīng)濟性,這些模型將在數(shù)十個 MegaClusters 之一的云端運行,”Uberti 說。“這種趨勢將反映芯片工廠:過去有數(shù)百個廉價的低分辨率工廠,而現(xiàn)在,高分辨率工廠的建設(shè)成本約為 200 億至 400 億美元。世界上只有少數(shù)幾個 MegaFab,它們都使用非常相似的底層架構(gòu)(EUV、858 平方毫米掩模版、300 毫米晶圓等)。”

      Etched 表示,Transformer 的轉(zhuǎn)換成本非常高。即使發(fā)明了一種比 Transformer 更好的新架構(gòu),重寫內(nèi)核、重建推測解碼等功能、構(gòu)建新的專用硬件、重新測試縮放定律以及重新培訓(xùn)團隊的阻力也是巨大的。Uberti 表示,這種情況十年內(nèi)只會發(fā)生一兩次,就像芯片領(lǐng)域發(fā)生的情況一樣:光刻技術(shù)、掩模版/晶圓尺寸和光刻膠成分的變化確實會繼續(xù)發(fā)生,但變化速度非常緩慢。

      “我們擴展 AI 模型的程度越高,我們就越會集中于模型架構(gòu)。創(chuàng)新將發(fā)生在其他地方:推測解碼、樹搜索和新的采樣算法,”Uberti 說。“在一個模型訓(xùn)練成本為 100 億美元、芯片制造成本為 5000 萬美元的世界里,專用芯片是不可避免的。*制造它們的公司將獲勝。”

      Etched 斷言,從來沒有人制造過特定架構(gòu)的 AI 芯片。即使在去年,這也毫無意義。特定架構(gòu)的芯片需要巨大的需求和對其持久力的堅定信念。

      Uberti表示:“我們把賭注押在了Transformer 上,這兩個要求都正在成為現(xiàn)實。”

      該公司指出,市場需求已達到前所未有的水平。Transformer 推理市場剛開始時不到 5000 萬美元,而現(xiàn)在已超過 50 億美元。所有大型科技公司都在使用 Transformer 模型(OpenAI、谷歌、亞馬遜、微軟、Facebook 等)。

      Uberti 表示,他們正在看到架構(gòu)融合:過去,AI 模型會發(fā)生很大變化。但自 GPT-2 以來,*進的模型架構(gòu)幾乎保持不變。OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa,甚至 Tesla FSD 都是Transformer 。

      Uberti 表示,公司正以極快的速度努力將Sohu變成現(xiàn)實。

      Uberti 強調(diào):“公司正朝著有史以來最快的速度推進,從架構(gòu)到驗證硅片,以用于 4nm 光罩大小的芯片。”“我們直接與臺積電合作,并從兩家*供應(yīng)商處雙源采購 HBM3E。我們從 AI 和基礎(chǔ)模型公司獲得了數(shù)千萬美元的預(yù)訂,并且擁有充足的供應(yīng)鏈能力來擴展。如果我們的賭注正確并且我們執(zhí)行,Etched 將成為世界上*的公司之一。”

      該公司重申,如果這一預(yù)測正確,Sohu將改變世界。

      如今,AI 編碼代理的計算成本為 60 美元/小時,并且需要數(shù)小時才能完成任務(wù),Gemini 需要 60 多秒才能回答有關(guān)視頻的問題16。編碼代理的成本高于軟件工程師,并且需要數(shù)小時才能完成任務(wù)。視頻模型每秒生成一幀,甚至當 ChatGPT 注冊用戶達到 1000 萬時(僅占全球的 0.15%),OpenAI 也耗盡了 GPU 容量。

      我們無法解決這個問題 - 即使我們繼續(xù)以每兩年 2.5 倍的速度制造更大的 GPU,也需要十年才能實現(xiàn)實時視頻生成。

      你設(shè)想一下,如果人工智能模型一夜之間速度提高 20 倍且成本降低,會發(fā)生什么?有了Sohu,實時視頻、音頻、代理和搜索終于成為可能。Uberti 表示,每款 AI 產(chǎn)品的單位經(jīng)濟效益將在一夜之間發(fā)生逆轉(zhuǎn)。

      據(jù)透露,該公司的早期客戶已經(jīng)預(yù)訂了數(shù)千萬美元的硬件。

      在被問到 Etched 這樣的小公司如何能擊敗 Nvidia。Etched 首席運營官聯(lián)合創(chuàng)始人 Robert Wachen 在給 VentureBeat 的電子郵件中說:

      “過去,AI 計算市場是分散的:人們使用不同類型的模型,例如 CNN、DLRM、LSTM、RNN 以及跨領(lǐng)域的數(shù)十種其他模型。每種架構(gòu)的支出都在數(shù)千萬到數(shù)億美元之間,而這些工作負載的市場足夠大,通用芯片 (GPU) 可以勝出,”Wachen 說道。

      他指出,市場正在迅速整合為一種架構(gòu):Transformer。在人們花費數(shù)十億美元購買變壓器模型、定制芯片花費 5000 萬至 1 億美元的世界里,專用芯片是不可避免的。

      “我們的芯片在大多數(shù)工作負載下都無法擊敗 GPU——我們無法支持它們。但是,對于變壓器推理(為每種主要的“生成式 AI”產(chǎn)品提供支持),我們將清除市場。通過如此專業(yè)化,我們的芯片比下一代 Blackwell GPU 快一個數(shù)量級,”Wachen 說道。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。