云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對(duì)標(biāo)豐田 專注增程式混動(dòng)車型黑神話悟空總收入超67億:銷量已超2000萬(wàn)份通快成立激光業(yè)務(wù)區(qū)域中心(中國(guó)),強(qiáng)勢(shì)布局中國(guó)市場(chǎng)Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風(fēng)向:一場(chǎng)電商減負(fù)運(yùn)動(dòng)博浪AI時(shí)代,阿里、華為“硬碰硬”Youtube將推出人工智能工具 可生成創(chuàng)意、標(biāo)題甚至完整視頻申通、圓通、韻達(dá)發(fā)布 8 月簡(jiǎn)報(bào):快遞業(yè)務(wù)量、收入均同比增長(zhǎng),單票收入均下降蘋果iPhone 16系列開(kāi)啟發(fā)售,Max最高加2500元TECNO 全球發(fā)布二代折疊屏旗艦—PHANTOM V Fold2 5G及PHANTOM V Flip2 5G科大訊飛還是AI“小甜甜”嗎?消息稱美團(tuán)外賣調(diào)整經(jīng)營(yíng)目標(biāo),從追求 GMV 變?yōu)樽非笥唵瘟?/a>消息稱淘寶“大服飾全球包郵計(jì)劃”升級(jí),品類“擴(kuò)容”至全行業(yè)Brightband獲1000萬(wàn)美元融資,可用AI預(yù)測(cè)極端天氣菊樂(lè)股份再次申報(bào)IPO:四度闖關(guān)未果,超七成收入來(lái)自四川傳AI芯片設(shè)計(jì)公司Ampere尋求出售,或放棄IPO引領(lǐng)通用具身新時(shí)代:普渡發(fā)布首款類人形機(jī)器人PUDU D7辦公軟件的超級(jí)英雄?金山WPS AI會(huì)員人數(shù)破百萬(wàn),鴻蒙版全面開(kāi)跑
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    賈揚(yáng)清:大模型尺寸正在重走CNN的老路;馬斯克:在特斯拉也是這樣

    2024年08月02日 09:49:31   來(lái)源:量子位公眾號(hào)

      Transformer大模型尺寸變化,正在重走CNN的老路!

      看到大家都被LLaMA3.1吸引了注意力,賈揚(yáng)清發(fā)出如此感慨。

      拿大模型尺寸的發(fā)展,和CNN的發(fā)展作對(duì)比,就能發(fā)現(xiàn)一個(gè)明顯的趨勢(shì)和現(xiàn)象:

      在ImageNet時(shí)代,研究人員和技術(shù)從業(yè)者見(jiàn)證了參數(shù)規(guī)模的快速增長(zhǎng),然后又開(kāi)始轉(zhuǎn)向更小、更高效的模型。

      聽(tīng)起來(lái),是不是和GPT哐哐往上卷模型參數(shù),業(yè)界普遍認(rèn)同Scaling Law,然后出現(xiàn)GPT-4o mini、蘋果DCLM-7B、谷歌Gemma2B如出一轍?

      賈揚(yáng)清笑稱,“這是前大模型時(shí)代的事兒,很多人可能都不咋記得了:)”。

      而且,賈揚(yáng)清不是唯一一個(gè)感知到這一點(diǎn)的人,AI大神卡帕西也這么覺(jué)得:

      大模型尺寸的競(jìng)爭(zhēng)正在加劇……但是卷的方向反著來(lái)了!

      模型必須先追求“更大”,然后才能追求“更小”,因?yàn)槲覀冃枰@個(gè)過(guò)程,幫咱把訓(xùn)練數(shù)據(jù)重構(gòu)成理想的、合成的格式。

      他甚至拍著胸脯打賭,表示我們一定能看到又好、又能可靠地思考的模型。

      而且是參數(shù)規(guī)模很小很小的那種。

      連馬斯克都在卡帕西的評(píng)論區(qū)連連稱是:

      以上,大概可以稱之為“大佬所見(jiàn)略同”。

      展開(kāi)說(shuō)說(shuō)

      賈揚(yáng)清的感慨,要從只在最強(qiáng)王座上短暫待了一天的LLaMA3.1說(shuō)起。

      那是首次實(shí)現(xiàn)“最強(qiáng)開(kāi)源模型=最強(qiáng)模型”,不出意外,萬(wàn)眾矚目。

      However,賈揚(yáng)清在這個(gè)時(shí)候提出了一個(gè)觀點(diǎn):

      “但我認(rèn)為,行業(yè)會(huì)因小型垂直模型而真正蓬勃發(fā)展。”

      至于啥是小型垂直模型,賈揚(yáng)清也說(shuō)得很清楚,比如以Patrouns AI的Iynx(該公司的幻覺(jué)檢測(cè)模型,在幻覺(jué)任務(wù)上超過(guò)GPT-4o)為代表的那些很棒的中小模型。

      賈揚(yáng)清表示,就個(gè)人喜好而言,他本人是非常喜歡千億參數(shù)模型的。

      但現(xiàn)實(shí)情況里,他觀察留意到,7B-70B參數(shù)規(guī)模之間的大模型,大家用起來(lái)更順手:

      它們更容易托管,不需要巨大的流量即可盈利;

      只要提出明確的問(wèn)題,就能得到質(zhì)量還不錯(cuò)的輸出——與和之前的一些看法相反。

      與此同時(shí),他聽(tīng)說(shuō)OpenAI最新的、速度很快的模型也開(kāi)始變得比“最先進(jìn)的”大模型尺寸更小。

      “如果我的理解是正確的,那么這絕對(duì)表明了行業(yè)趨勢(shì)。”賈揚(yáng)清直接表明了自己的觀點(diǎn),“即在現(xiàn)實(shí)世界中,使用適用的、具有成本效益、且仍然強(qiáng)大的模型。”

      于是乎,賈揚(yáng)清簡(jiǎn)單梳理了CNN的發(fā)展歷程。

      首先,是CNN的崛起時(shí)代。

      以AlexNet(2012)為起點(diǎn),開(kāi)啟了大約三年的模型規(guī)模增長(zhǎng)時(shí)期。

      2014年出現(xiàn)的VGGNet就是一個(gè)性能和規(guī)模都非常強(qiáng)大的模型。

      其次,是縮小規(guī)模時(shí)期。

      2015年,GoogleNet把模型大小從“GB”縮小到了“MB”級(jí)別,即縮小了100倍;但模型性能并沒(méi)有因此驟減,反而保持了不錯(cuò)的性能。

      遵循類似趨勢(shì)的還有2015年面世的SqueezeNet模型等。

      然后的一段時(shí)間,發(fā)展重點(diǎn)在追求平衡。

      后續(xù)研究,如ResNet(2015)、ResNeXT(2016)等,都保持了一個(gè)適中的模型規(guī)模。

      值得注意的是,模型規(guī)模的控制并沒(méi)有帶來(lái)計(jì)算量的減少——其實(shí),大伙兒都愿意投入更多的計(jì)算資源,尋求一種“同等參數(shù)但更高效”的狀態(tài)。

      緊接著就是CNN在端側(cè)起舞的一段時(shí)期。

      舉個(gè)例子,MobileNet是谷歌在2017年推出的一項(xiàng)有趣的工作。

      有趣就有趣在它占用的資源超級(jí)少,但是性能卻非常優(yōu)異。

      就在上周,還有人跟賈揚(yáng)清提到:“Wow~我們現(xiàn)在還在用MobileNet,因?yàn)樗梢栽谠O(shè)備上運(yùn)行,而且在出色的特征嵌入泛化(Feature Embedding Generality)。”

      最后,賈揚(yáng)清借用了來(lái)源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一張圖:

      并再一次發(fā)出自己的疑問(wèn):

      大模型尺寸,會(huì)遵循與CNN時(shí)代相同的趨勢(shì)來(lái)發(fā)展嗎?

      網(wǎng)友怎么看?

      其實(shí)GPT-4o mini這樣走在大模型發(fā)展道路上“不大反小”的例子不在少數(shù)。

      當(dāng)上述幾位表達(dá)出這樣的觀點(diǎn)后,立馬有人點(diǎn)頭如搗蒜,還拿出了一些別的類似例子,證明他們看到了相同的趨勢(shì)。

      有人立馬跟上:

      我這兒有個(gè)新的正面例子!Gemma-2就是把27B參數(shù)大小的模型知識(shí)蒸餾成更小的版本。

      還有網(wǎng)友表示,開(kāi)發(fā)更大的模型,意味著能給后續(xù)幾代更小、更垂直的模型的訓(xùn)練“上強(qiáng)度”。

      這個(gè)迭代過(guò)程最終會(huì)產(chǎn)生所謂的“完美訓(xùn)練集”。

      這樣一來(lái),較小的大模型在特定領(lǐng)域,能與現(xiàn)在參數(shù)巨大的大模型一樣聰明,甚至更聰明。

      一言以蔽之,模型必須先變大,然后才能變小。

      大多數(shù)討論此觀點(diǎn)的人,還是對(duì)這個(gè)趨勢(shì)比較認(rèn)同,有人直言“這是一件好事,比‘我的模型比你的模型大’參數(shù)競(jìng)賽更實(shí)用和有用。”

      但是,當(dāng)然了!

      翻遍網(wǎng)絡(luò)評(píng)論區(qū),也有人發(fā)出不同的聲音。

      比如下面這位朋友就在賈揚(yáng)清推文底下留言:

      Mistral Large(背后公司Mistral AI)、LLaMA3.1(背后公司Meta)和OpenAI,持有最強(qiáng)競(jìng)爭(zhēng)力模型的公司,目前可能都正在訓(xùn)練更大的模型。

      我沒(méi)發(fā)現(xiàn)有“更小型號(hào)模型搞定技術(shù)突破”的趨勢(shì)喲。

      面對(duì)這個(gè)問(wèn)題,賈揚(yáng)清倒也及時(shí)回復(fù)了。

      他是這么說(shuō)的:“沒(méi)錯(cuò)!我說(shuō)大模型尺寸可能在走CNN的老路,絕對(duì)不意味著號(hào)召大家停止訓(xùn)練更大的模型。”

      他進(jìn)一步解釋道,這么說(shuō)的本意是,隨著技術(shù)(包括CNN和大模型)落地實(shí)踐越來(lái)越廣,大家已經(jīng)開(kāi)始越來(lái)越關(guān)注性價(jià)比更高的模型了。”

      所以,或許更高效的小·大模型,能夠重新定義AI的“智能”,挑戰(zhàn)“越大越好”的假設(shè)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。