ChatGPT限流生成式大模型觸碰算力天花板？

2023年04月13日 16:34:23 來源：元宇宙日爆

　　作者:凱蒂

　　編輯：文刀

　　ChatGPT恢復(fù)了Plus付費(fèi)購買，GPT-4又能“花錢”使用了。但有不少用戶發(fā)現(xiàn)，最近這個增長最快的對話機(jī)器人的響應(yīng)速度變慢了不少，之前，它還出現(xiàn)過大規(guī)模封號和時常掉線的情況。

　　4月5日，ChatGPT Plus付費(fèi)功能的停擺已經(jīng)引發(fā)外界對AI算力供給不足的擔(dān)憂。當(dāng)前，市面上已經(jīng)不僅ChatGPT一個文本生成大模型的應(yīng)用了，同類產(chǎn)品有谷歌的Bard、百度的文心一言，市面上還有圖片、音視頻、3D效果甚至App的生成式AI大模型。

　　多模態(tài)大模型井噴式出現(xiàn)，支撐它們的算力還夠嗎?

　　目前，供給主流AI大模型的高性價比芯片是英偉達(dá)的A100，從去年開始，英偉達(dá)就在向代工廠臺積電下急單，催產(chǎn)多種芯片，其中就包括A100，足見當(dāng)前AI算力的緊俏。而OpenAI關(guān)于GPT-4.5、GPT-5的推出已經(jīng)列出了時間表。

　　愛丁堡大學(xué)超級計算中心馬克·帕森斯的預(yù)言正在成真，“算力會成為AI大模型發(fā)展的阻礙”，除了高性能芯片量產(chǎn)的局限性之外，還有芯片帶寬的問題亟待解決。

　　ChatGPT暫停付費(fèi)服務(wù)引發(fā)算力擔(dān)憂

　　“因為需求量太大，我們暫停了升級服務(wù)”，這是4月5日ChatGPT停止Plus付費(fèi)購買功能時給出的理由，當(dāng)時距離它開通Plus功能僅僅2個月。

　　一天后，ChatGPT又恢復(fù)了Plus的訂閱，人們又能以每月20美元的價格享受會員服務(wù)了，包括使用最新模型GPT-4、在高峰時段正常訪問、擁有更快的響應(yīng)速度等等。當(dāng)有會員用戶感覺，ChatGPT的響應(yīng)速度變慢了，宕機(jī)時總是顯示“Oops”的遺憾聲的頁面越來越頻繁地出現(xiàn)，“服務(wù)器跟不上了?”

　　哪怕在停售Plus之前，ChatGPT突然無法使用的情況也大規(guī)模地發(fā)生過。3月20日，它曾全球性宕機(jī)12小時，付費(fèi)用戶也未能幸免，官方公布的原因是“數(shù)據(jù)庫遷移”;到了3月30日，有大量亞洲用戶發(fā)現(xiàn)被封了號，“用訪問范圍門檻減少訪問量”的懷疑聲出現(xiàn)。

　　降低訪問量的確是ChatGPT研發(fā)方Open AI在做的事。近期，該公司多次下調(diào)付費(fèi)用戶的訪問次數(shù)，起初，用戶可以每四小時和GPT-4對話100次;不久后，下降到每四小時50次;再之后，變成每三小時25次。但即便如此，社交網(wǎng)絡(luò)上仍然有不少人在反饋，ChatGPT掉線的頻率在增加。

　　隨著用戶量的增加，ChatGPT已經(jīng)暴露出訪問響應(yīng)速度跟不上的問題，而OpenAI似乎并不打算停止模型的升級。

　　日前，該公司公布了GPT未來版本的規(guī)劃，預(yù)計在今年9、10月推出GPT-4.5，在今年第四季度推出GPT-5。在種種爆料中，GPT-5的性能相較于GPT-4有著指數(shù)級別的進(jìn)化，擁有在視頻、音頻中讀取信息等神奇能力。

　　人們在佩服OpenAI研發(fā)能力的同時，也在擔(dān)憂供給GPT模型的“能源”——算力能否跟上的問題。畢竟，需要算力研發(fā)AI大模型的，不只OpenAI，還有開發(fā)各種多模態(tài)大模型的其他公司。而一個文本生成都被ChatGPT限制訪問成那樣，將來音視頻生成，豈不是更費(fèi)?

　　OpenAI自己也測算過，2012年以來，全球AI訓(xùn)練的計算量呈指數(shù)級增長，每3.43個月就會翻一倍。那么，到底GPT會用掉多少算力?

　　英偉達(dá)A100成AI“石油”

　　算力，即計算機(jī)處理數(shù)據(jù)的能力，與數(shù)據(jù)、算法并成為人工智能的三大基石。而GPT這樣的大語言模型的建立需要大量的計算能力，GPU芯片是主要的算力產(chǎn)出工具。

　　據(jù)公開數(shù)據(jù)，GPT-3具有1750億個參數(shù)，45TB的訓(xùn)練數(shù)據(jù)，有上萬枚英偉達(dá)的A100芯片支撐。如果缺乏足夠的高性能芯片，訓(xùn)練的效率將大大降低。英偉達(dá)和微軟研究院的一篇論文這樣假設(shè)，“假設(shè)我們在單個GPU中擬合模型，所需的大量計算操作可能導(dǎo)致不實際的超長訓(xùn)練時間”，而GPT-3在單個V100 英偉達(dá) GPU上估計“需要288年的時間”。 2017年發(fā)布的V100顯然已經(jīng)不夠高效，更具性價比的選擇是A100芯片，售價超1萬美元，性能確實V100的3.5倍。

　　OpenAI并沒有公布GPT-4 的參數(shù)規(guī)模，外界傳聞的“100萬億參數(shù)”已經(jīng)被該公司CEO山姆·阿爾特曼(Sam Altman)否認(rèn)，但從研究人員根據(jù)前代模型數(shù)據(jù)的推測和媒體從內(nèi)部人士獲得的信息看，GPT-4的參數(shù)量至少在萬億級別。這也意味著，GPT-4的參數(shù)量是GPT-3的10倍以上，相應(yīng)地，GPT-4的算力需求也在指數(shù)級上升。

　　GPT-4上線后，微軟就被傳出GPU數(shù)量告急的傳聞。有媒體報道，微軟內(nèi)部需要用GPU做研究的團(tuán)隊被告知，想用GPU必須經(jīng)過特殊渠道申請，因為“公司的大量GPU需要用于支持Bing的最新AI功能和GPT的模型訓(xùn)練”。

　　對此，微軟負(fù)責(zé)商業(yè)應(yīng)用程序的副總裁查爾斯·拉馬納(Charles Lamanna)向媒體解釋，“沒有無限量的GPU，如果每個人在每次活動、每個會議上都使用它，那么可能就不夠用了，對吧?”

　　微軟不差錢，也不存在被芯片“卡脖子”的情況，為什么不砸錢“買買買”?事實上，全球芯片量產(chǎn)的種類雖多，OpenAI最需要一種——GPU，而這種芯片主要由英偉達(dá)供給。

　　而在GPU市場，英偉達(dá)長期占據(jù)主導(dǎo)地位。根據(jù)Verified Market Research的數(shù)據(jù)，英偉達(dá)在數(shù)據(jù)中心GPU市場占比超過80%，云端訓(xùn)練市場占比超過90%，云端推理市場占比60%。

　　英偉達(dá)在2020年推出首款安培架構(gòu)產(chǎn)品A100芯片，目前已經(jīng)成為人工智能行業(yè)最關(guān)鍵的工具之一。A100可以同時執(zhí)行許多簡單的計算，非常適用于進(jìn)行“推理”或生成文本。無論是開發(fā)聊天機(jī)器人，還是圖像生成軟件，足夠多數(shù)量的英偉達(dá)A100都至關(guān)重要。

　　Stateof.ai去年發(fā)布人工智能發(fā)展報告估算了部分大公司和機(jī)構(gòu)擁有的A100數(shù)量，其中，開發(fā)出AI繪圖軟件Stable Diffusion的的Stability AI擁有4000個A100。按照這個數(shù)據(jù)對比國內(nèi)首個類 ChatGPT 模型MOSS，它只用了8個A100，難怪內(nèi)測時被“擠崩”了。

　　這份報告不包括OpenAI的數(shù)據(jù)，不過，根據(jù)市場調(diào)查機(jī)構(gòu) TrendForce估算，ChatGPT在訓(xùn)練階段需要2萬塊A100，而日常運(yùn)營可能需要超過3萬塊。

　　A100儼然AI大模型研發(fā)圈的“搶手貨”，英偉達(dá)也有意普及，但到了量產(chǎn)環(huán)節(jié)，全球最大的芯片代工廠臺積電的產(chǎn)能有點跟不上。去年年底和今年一季度，英偉達(dá)都給臺積電下了急單，由于芯片的重要部件7nm晶圓片在臺積電的產(chǎn)量固定，因此，產(chǎn)能利用率提升還需要一個爬坡期。

　　B站科技UP主“動動槍”分析，考慮臺積電的生產(chǎn)線和產(chǎn)能相對固定，增開生產(chǎn)線沒那么容易，“英偉達(dá)在一段時間內(nèi)會將主要產(chǎn)能放在專業(yè)級GPU上，來滿足企業(yè)、云服務(wù)商對高算力芯片的需求”。

　　除了算力還得改善芯片帶寬

　　早在GPT-4發(fā)布前，愛丁堡大學(xué)超級計算中心EPCC主任馬克·帕森斯(Mark Parsons)已經(jīng)預(yù)言過，算力會成為AI大模型發(fā)展的阻礙。

　　帕森斯指出，由于用于訓(xùn)練系統(tǒng)的最大GPU的內(nèi)存容量有限，所以需要多個處理器并行運(yùn)行，但是使用并行運(yùn)行的處理器也有局限性，因為當(dāng)GPU超過一定數(shù)量，單個GPU的性能會受限制，同時成本也會增加。也就是說，AI芯片的算力會出現(xiàn)類似邊際效用遞減的情況，人們無法靠無限增加芯片來提升算力。

　　此外，帕森斯教授認(rèn)為，當(dāng)前AI芯片的帶寬也會成為AI發(fā)展的瓶頸，因為帶寬決定了AI芯片每秒鐘可以訪問的數(shù)量。

　　“在一個GPU上訓(xùn)練了一個子集數(shù)據(jù)后，你必須將數(shù)據(jù)帶回、共享，并在所有GPU上進(jìn)行另一次訓(xùn)練，這需要大量的芯片帶寬”，帕森斯教授說道。而當(dāng)前最大的挑戰(zhàn)就是“如何改善GPU服務(wù)器之間的數(shù)據(jù)傳輸”。

　　有人向新必應(yīng)詢問為什么GPT會出現(xiàn)算力不足的現(xiàn)象，它和帕森斯所見略同，也強(qiáng)調(diào)了GPU帶寬的重要性：

　　GPT算力不足，主要是因為它的模型規(guī)模和數(shù)據(jù)量都在不斷增長，而現(xiàn)有的數(shù)據(jù)處理器性能和能效都難以滿足其需求。GPT使用的處理器主要是GPU(圖形處理器)和TPU(張量處理器)，這兩種處理器都是專門為深度學(xué)習(xí)而設(shè)計的，并且具有高度的并行性和矩陣運(yùn)算能力。然而，隨著GPT模型參數(shù)數(shù)量的增加，GPU和TPU的內(nèi)存容量和帶寬都成為了瓶頸，導(dǎo)致訓(xùn)練效率下降。此外，GPU和TPU的功耗也很高，給電力和散熱帶來了挑戰(zhàn)。因此，GPT需要更高性能和更低功耗的處理器來支持其發(fā)展。

　　看上去，當(dāng)前芯片數(shù)量和性能都在限制AI大模型的發(fā)展“資源”。而GPT模型的參數(shù)量仍在高速增長中，據(jù)悉，每18個月左右就會增加10倍，這無疑對全球的算力提出更高的要求。

　　如果ChatGPT真的是因為算力不足而出現(xiàn)限流、宕機(jī)的情況，那么，自然語言生成式大模型未來可能會集體觸碰AI發(fā)展的天花板。歸根結(jié)底，卷來卷去的大模型，最終還得看英偉達(dá)等芯片供應(yīng)商的迭代能力。