聯(lián)想問天WA7785a G3服務器創(chuàng)紀錄!單機運行671B DeepSeek大模型吞吐量高達6708token/s!

2025年03月17日 15:30:31 來源：Citnews中文科技資訊

　　聯(lián)想今日宣布，旗下首款 AMD AI 大模型訓練服務器——聯(lián)想問天 WA7785a G3在單機部署671B(滿血版) DeepSeek 大模型時，實現了高達6708token/s 的極限吞吐量，再次刷新了單臺服務器運行超大規(guī)模模型性能的紀錄。

　　據介紹，此次性能突破得益于聯(lián)想萬全異構智算平臺的強大支持。聯(lián)想通過訪存優(yōu)化、顯存優(yōu)化、創(chuàng)新的 PCIe5.0全互聯(lián)架構以及精選 SGLang 框架中的最優(yōu)算子等一系列創(chuàng)新技術手段，對大模型從預訓練、后訓練到推理的全流程進行了持續(xù)優(yōu)化。實測結果顯示，在單臺部署 DeepSeek671B 大模型的聯(lián)想問天 WA7785a G3服務器上，最高吞吐量達到了驚人的6708token/s。

　　在模擬問題對話場景(上下文序列長度128/1K)時，該服務器最高可支持158的并發(fā)數，TPOT(Time Per Output Token)為93毫秒，TTFT(Time To First Token)為2.01秒;而在模擬代碼生成場景(上下文序列長度512/4K)時，并發(fā)數可達140，TPOT 為100毫秒，TTFT 為5.53秒。聯(lián)想方面表示，這一性能表現意味著單臺聯(lián)想問天 WA7785a G3服務器即可支撐1500人規(guī)模企業(yè)的正常使用，是繼聯(lián)想問天 WA7780G3服務器單機部署滿血版 DeepSeek 大模型總吞吐量突破2500token/s 之后，在單機部署該大模型推理性能上的又一次重大飛躍。

　　聯(lián)想方面強調，此次技術突破是聯(lián)想中國基礎設施業(yè)務群、聯(lián)想研究院 ICI 實驗室和 AMD 聯(lián)合設計、協(xié)同調優(yōu)、共同實現的成果。同時，這并非最終結果，聯(lián)想與 AMD 仍在持續(xù)探索深度調優(yōu)的新方法，以期實現更高的性能突破。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

[No. ]
分享到微信