首頁 > 云計(jì)算頻道 > 大模型

賈揚(yáng)清：大模型尺寸正在重走CNN的老路；馬斯克：在特斯拉也是這樣

2024年08月02日 09:49:31 來源：量子位公眾號

　　Transformer大模型尺寸變化，正在重走CNN的老路!

　　看到大家都被LLaMA3.1吸引了注意力，賈揚(yáng)清發(fā)出如此感慨。

　　拿大模型尺寸的發(fā)展，和CNN的發(fā)展作對比，就能發(fā)現(xiàn)一個(gè)明顯的趨勢和現(xiàn)象:

　　在ImageNet時(shí)代，研究人員和技術(shù)從業(yè)者見證了參數(shù)規(guī)模的快速增長，然后又開始轉(zhuǎn)向更小、更高效的模型。

　　聽起來，是不是和GPT哐哐往上卷模型參數(shù)，業(yè)界普遍認(rèn)同Scaling Law，然后出現(xiàn)GPT-4o mini、蘋果DCLM-7B、谷歌Gemma2B如出一轍?

　　賈揚(yáng)清笑稱，“這是前大模型時(shí)代的事兒，很多人可能都不咋記得了:)”。

　　而且，賈揚(yáng)清不是唯一一個(gè)感知到這一點(diǎn)的人，AI大神卡帕西也這么覺得:

　　大模型尺寸的競爭正在加劇……但是卷的方向反著來了!

　　模型必須先追求“更大”，然后才能追求“更小”，因?yàn)槲覀冃枰@個(gè)過程，幫咱把訓(xùn)練數(shù)據(jù)重構(gòu)成理想的、合成的格式。

　　他甚至拍著胸脯打賭，表示我們一定能看到又好、又能可靠地思考的模型。

　　而且是參數(shù)規(guī)模很小很小的那種。

　　連馬斯克都在卡帕西的評論區(qū)連連稱是:

　　以上，大概可以稱之為“大佬所見略同”。

　　展開說說

　　賈揚(yáng)清的感慨，要從只在最強(qiáng)王座上短暫待了一天的LLaMA3.1說起。

　　那是首次實(shí)現(xiàn)“最強(qiáng)開源模型=最強(qiáng)模型”，不出意外，萬眾矚目。

　　However，賈揚(yáng)清在這個(gè)時(shí)候提出了一個(gè)觀點(diǎn):

　　“但我認(rèn)為，行業(yè)會(huì)因小型垂直模型而真正蓬勃發(fā)展。”

　　至于啥是小型垂直模型，賈揚(yáng)清也說得很清楚，比如以Patrouns AI的Iynx(該公司的幻覺檢測模型，在幻覺任務(wù)上超過GPT-4o)為代表的那些很棒的中小模型。

　　賈揚(yáng)清表示，就個(gè)人喜好而言，他本人是非常喜歡千億參數(shù)模型的。

　　但現(xiàn)實(shí)情況里，他觀察留意到，7B-70B參數(shù)規(guī)模之間的大模型，大家用起來更順手:

　　它們更容易托管，不需要巨大的流量即可盈利;

　　只要提出明確的問題，就能得到質(zhì)量還不錯(cuò)的輸出——與和之前的一些看法相反。

　　與此同時(shí)，他聽說OpenAI最新的、速度很快的模型也開始變得比“最先進(jìn)的”大模型尺寸更小。

　　“如果我的理解是正確的，那么這絕對表明了行業(yè)趨勢。”賈揚(yáng)清直接表明了自己的觀點(diǎn)，“即在現(xiàn)實(shí)世界中，使用適用的、具有成本效益、且仍然強(qiáng)大的模型。”

　　于是乎，賈揚(yáng)清簡單梳理了CNN的發(fā)展歷程。

　　首先，是CNN的崛起時(shí)代。

　　以AlexNet(2012)為起點(diǎn)，開啟了大約三年的模型規(guī)模增長時(shí)期。

　　2014年出現(xiàn)的VGGNet就是一個(gè)性能和規(guī)模都非常強(qiáng)大的模型。

　　其次，是縮小規(guī)模時(shí)期。

　　2015年，GoogleNet把模型大小從“GB”縮小到了“MB”級別，即縮小了100倍;但模型性能并沒有因此驟減，反而保持了不錯(cuò)的性能。

　　遵循類似趨勢的還有2015年面世的SqueezeNet模型等。

　　然后的一段時(shí)間，發(fā)展重點(diǎn)在追求平衡。

　　后續(xù)研究，如ResNet(2015)、ResNeXT(2016)等，都保持了一個(gè)適中的模型規(guī)模。

　　值得注意的是，模型規(guī)模的控制并沒有帶來計(jì)算量的減少——其實(shí)，大伙兒都愿意投入更多的計(jì)算資源，尋求一種“同等參數(shù)但更高效”的狀態(tài)。

　　緊接著就是CNN在端側(cè)起舞的一段時(shí)期。

　　舉個(gè)例子，MobileNet是谷歌在2017年推出的一項(xiàng)有趣的工作。

　　有趣就有趣在它占用的資源超級少，但是性能卻非常優(yōu)異。

　　就在上周，還有人跟賈揚(yáng)清提到:“Wow～我們現(xiàn)在還在用MobileNet，因?yàn)樗梢栽谠O(shè)備上運(yùn)行，而且在出色的特征嵌入泛化(Feature Embedding Generality)。”

　　最后，賈揚(yáng)清借用了來源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一張圖:

　　并再一次發(fā)出自己的疑問:

　　大模型尺寸，會(huì)遵循與CNN時(shí)代相同的趨勢來發(fā)展嗎?

　　網(wǎng)友怎么看?

　　其實(shí)GPT-4o mini這樣走在大模型發(fā)展道路上“不大反小”的例子不在少數(shù)。

　　當(dāng)上述幾位表達(dá)出這樣的觀點(diǎn)后，立馬有人點(diǎn)頭如搗蒜，還拿出了一些別的類似例子，證明他們看到了相同的趨勢。

　　有人立馬跟上:

　　我這兒有個(gè)新的正面例子!Gemma-2就是把27B參數(shù)大小的模型知識(shí)蒸餾成更小的版本。

　　還有網(wǎng)友表示，開發(fā)更大的模型，意味著能給后續(xù)幾代更小、更垂直的模型的訓(xùn)練“上強(qiáng)度”。

　　這個(gè)迭代過程最終會(huì)產(chǎn)生所謂的“完美訓(xùn)練集”。

　　這樣一來，較小的大模型在特定領(lǐng)域，能與現(xiàn)在參數(shù)巨大的大模型一樣聰明，甚至更聰明。

　　一言以蔽之，模型必須先變大，然后才能變小。

　　大多數(shù)討論此觀點(diǎn)的人，還是對這個(gè)趨勢比較認(rèn)同，有人直言“這是一件好事，比‘我的模型比你的模型大’參數(shù)競賽更實(shí)用和有用。”

　　但是，當(dāng)然了!

　　翻遍網(wǎng)絡(luò)評論區(qū)，也有人發(fā)出不同的聲音。

　　比如下面這位朋友就在賈揚(yáng)清推文底下留言:

　　Mistral Large(背后公司Mistral AI)、LLaMA3.1(背后公司Meta)和OpenAI，持有最強(qiáng)競爭力模型的公司，目前可能都正在訓(xùn)練更大的模型。

　　我沒發(fā)現(xiàn)有“更小型號模型搞定技術(shù)突破”的趨勢喲。

　　面對這個(gè)問題，賈揚(yáng)清倒也及時(shí)回復(fù)了。

　　他是這么說的:“沒錯(cuò)!我說大模型尺寸可能在走CNN的老路，絕對不意味著號召大家停止訓(xùn)練更大的模型。”

　　他進(jìn)一步解釋道，這么說的本意是，隨著技術(shù)(包括CNN和大模型)落地實(shí)踐越來越廣，大家已經(jīng)開始越來越關(guān)注性價(jià)比更高的模型了。”

　　所以，或許更高效的小·大模型，能夠重新定義AI的“智能”，挑戰(zhàn)“越大越好”的假設(shè)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

賈揚(yáng)清：大模型尺寸正在重走CNN的老路；馬斯克：在特斯拉也是這樣

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

專題

賈揚(yáng)清：大模型尺寸正在重走CNN的老路；馬斯克：在特斯拉也是這樣

擴(kuò)展閱讀

賈揚(yáng)清：大模型尺寸正在重走CNN的老路；馬斯克：在特斯拉也是這樣