下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風(fēng)機品質(zhì)檢測結(jié)果揭曉 徠芬獨占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務(wù)“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設(shè)備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁 > 云計算頻道 > 大模型

    算力不足,小模型成AI模型發(fā)展下個方向?

    2024年04月24日 09:22:12   來源:新火種公眾號

      大模型不是AI的唯一出路,把模型做小也是本事。

      這段時間,AI模型界是真的熱鬧,新的模型不斷涌現(xiàn),不管是開源還是閉源,都在刷新成績。就在前幾天,Meta就上演了一出“重奪開源鐵王座”的好戲。發(fā)布了Llama38B和70B兩個版本,在多項指標(biāo)上都超越了此前開源的Grok-1和DBRX,成為了新的開源大模型王者。

      并且Meta還透露,之后還將推出400B版本的Llama3,它的測試成績可是在很多方面上都追上了OpenAI閉源的GPT-4,讓很多人都直呼,開源版的GPT-4就要來了。盡管在參數(shù)量上來看,相比Llama2,Llama3并沒有特別大的提升,但是在某些表現(xiàn)上,Llama3最小的8B版本都比Llama270B要好?梢姡P托阅艿奶嵘⒎侵挥卸褏(shù)這一種做法。

      Llama3重回開源之王

      當(dāng)?shù)貢r間4月18日,“真·OpenAI”——Meta跑出了目前最強的開源大模型Llama3。本次Meta共發(fā)布了兩款開源的Llama38B和Llama370B模型。根據(jù)Meta的說法,這兩個版本的Llama3是目前同體量下,性能最好的開源模型。并且在某些數(shù)據(jù)集上,Llama38B的性能比Llama270B還要強,要知道,這兩者的參數(shù)可是相差了一個數(shù)量級。

      能夠做到這點,可能是因為Llama3的訓(xùn)練效率要高3倍,它基于超過15T token訓(xùn)練,這比Llama2數(shù)據(jù)集的7倍還多。在MMLU、ARC、DROP等基準(zhǔn)測試中,Llama38B在九項測試中領(lǐng)先于同行,Llama370B也同樣擊敗了Gemini1.5Pro和Claude3Sonnet。

      盡管在參數(shù)量上并沒有特別大的提升,但毫無疑問,Llama3的性能已經(jīng)得到了很大的進步,可以說是用相近的參數(shù)量獲得了更好的性能,這可能是在算力資源短期內(nèi)無法滿足更大規(guī)模運算的情況下所作出的選擇,但這體現(xiàn)了AI模型的研發(fā)并非只有堆砌參數(shù)這一條“大力出奇跡”的道路。

      把大模型做小正成業(yè)內(nèi)共識

      實際上,在Llama3之間的兩位開源王者,Grok-1和DBRX也致力于把模型做小。和以往的大模型,使用一個模型解決一切問題的方式不同,Grok-1和DBRX都采用了MoE架構(gòu)(專家模型架構(gòu)),在面對不同問題的時候,調(diào)用不同的小模型來解決,實現(xiàn)在節(jié)省算力的情況下,保證回答的質(zhì)量。

      而微軟也在Llama3發(fā)布后沒幾天,就出手截胡,展示了Phi-3系列小模型的技術(shù)報告。在這份報告中,僅3.8B參數(shù)的Phi-3-mini在多項基準(zhǔn)測試中都超過了Llama38B,并且為了方便開源社區(qū)使用,還特意把它設(shè)計成了與Llama系列兼容的結(jié)構(gòu)。更夸張的是,微軟的這個模型,在手機上也能直接跑,經(jīng)4bit量化后的phi-3-mini在iPhone14pro和iPhone15使用的蘋果A16芯片上能夠跑到每秒12token,這也就意味著,現(xiàn)在手機上能本地運行的最佳開源模型,已經(jīng)做到了ChatGPT水平。

      而除了mini杯外,微軟也一并發(fā)布了小杯和中杯,7B參數(shù)的Phi-3-small和14B參數(shù)的Phi-3-medium。在技術(shù)報告中,微軟也說了,去年研究團隊就發(fā)現(xiàn),單純堆砌參數(shù)量并非提升模型性能的唯一路徑,反而是精心設(shè)計訓(xùn)練的數(shù)據(jù),尤其是利用大模型本身去生成合成數(shù)據(jù),并配合嚴(yán)格過濾的高質(zhì)量數(shù)據(jù),能夠讓中小模型的能力大幅躍升,所以他們也說,Textbooks are all you need,教科書級別的高質(zhì)量數(shù)據(jù)才是重要的。

      AI模型發(fā)展正著力于擺脫限

      自英偉達乘著AI的東風(fēng),成為行業(yè)內(nèi)說一不二,當(dāng)之無愧的“賣鏟子的人”,各家AI公司都將英偉達的GPU視為“硬通貨”,以致于誰囤有更多的英偉達的GPU,誰的AI實力就強。但英偉達的GPU的交付并未能始終跟上市場的需求。

      因此,很多AI公司開始另謀出路,要么找其他的GPU生產(chǎn)商,要么決定自己研發(fā)AI芯片。即使你囤夠了英偉達的GPU,也還有其他限制,OpenAI在前段時間就被爆出,因為訓(xùn)練GPT-6,差點把微軟的電網(wǎng)搞癱瘓。馬斯克也曾說過,當(dāng)前限制AI發(fā)展的主要因素是算力資源,但在未來,電力會成為限制AI發(fā)展的另一阻礙。

      顯然,如果持續(xù)“大力出奇跡”,通過堆砌參數(shù)量來實現(xiàn)AI性能的提升,那么以上這些問題遲早會遇到,但是如果把大模型做小,使用較小的參數(shù)量,實現(xiàn)同樣或者更好的性能,那么將可以顯著減少對算力資源的需求,進而減少對電力資源的消耗,從而讓AI在有限資源的情況下,得到更好的發(fā)展。

      因此,接下來,誰能在將模型做小的同時,還能實現(xiàn)性能的增長,也是實力的體現(xiàn)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。