本文來(lái)自于微信公眾號(hào) 量子位(ID:QbitAI),作者:金磊。
識(shí)讀距今2300多年戰(zhàn)國(guó)時(shí)期的上古竹簡(jiǎn),AI正在立功。
而且在這背后的“大功臣”,竟是只有2B大小的多模態(tài)大模型!
這批上古竹簡(jiǎn),由清華大學(xué)于2008年7月收藏,因此也被稱為清華簡(jiǎn)。
清華簡(jiǎn)的數(shù)量大約是2500枚,其內(nèi)容在已被發(fā)現(xiàn)的先秦竹簡(jiǎn)中也是前所未見(jiàn),被認(rèn)為是繼甲骨文、敦煌遺書、居延漢簡(jiǎn)、云夢(mèng)秦簡(jiǎn)之后的又一重大發(fā)現(xiàn)。
不過(guò)也正因如此,識(shí)讀清華簡(jiǎn)便成了老大難的問(wèn)題,因?yàn)樯厦娴奈淖只旧隙际浅淖郑厥蓟式y(tǒng)一文字后就已被廢棄。
而就在最近,研究人員在一個(gè)2B大小的多模態(tài)大模型助力之下,成功地在清華簡(jiǎn)的版式檢測(cè)和文字識(shí)別上取得突破:
例如詢問(wèn)這個(gè)大模型:
這張圖里最短的木頭上第一個(gè)字是什么?
它不僅可以準(zhǔn)確找到最短的竹簡(jiǎn),也能精準(zhǔn)地識(shí)別出上面的楚文字是現(xiàn)代的“可”字。
即使是和現(xiàn)代文字差異較大的古文字,這個(gè)大模型也能查字詢意,得出正確結(jié)論是“我”。
并且研究團(tuán)隊(duì)還表示,他們正在嘗試?yán)^續(xù)用這種方式進(jìn)一步做探索。
嗯,不得不說(shuō),大模型“以小博大”這事,已經(jīng)開(kāi)始波及到多模態(tài)了。
那么這個(gè)2B大模型,到底是什么來(lái)頭?最強(qiáng)端側(cè)多模態(tài)大模型,手機(jī)就能跑
不賣關(guān)子。
這個(gè)2B多模態(tài)大模型,正是由清華系初創(chuàng)公司面壁智能最新升級(jí)的小鋼炮系列,最強(qiáng)端側(cè)多模態(tài)大模型——MiniCPM-V2.0。
劃個(gè)重點(diǎn):手機(jī)端就能跑!
那么它的能力到底幾何?為什么說(shuō)是最強(qiáng)端側(cè)多模態(tài)大模型?
首先來(lái)看多模態(tài)通用能力,這也是能夠衡量其底座水平的一個(gè)重要指標(biāo)。
在多模態(tài)大模型綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass榜單上測(cè)試的結(jié)果顯示,MiniCPM-V2.0雖然只有2B的體量,但得分已經(jīng)超過(guò)了10B、17B甚至34B的主流選手:
其次再看OCR(光學(xué)字符識(shí)別)綜合能力,這可以說(shuō)是檢測(cè)多模態(tài)識(shí)別與推理能力最硬核的指標(biāo)。
在權(quán)威的OCR綜合能⼒榜單OCRBench中,MiniCPM-V2.0同樣是用2B的“姿勢(shì)”競(jìng)技,刷新了開(kāi)源模型SOTA:
并且在場(chǎng)景圖片文字識(shí)別榜單TextVQA中,MiniCPM-V2.0更是直接秒殺了全系13B體量的通用模型。
甚至部分能力已經(jīng)可以比肩多模態(tài)領(lǐng)域的王者Gemini Pro:
不僅如此,在中文OCR能力方面,MiniCPM-V2.0展現(xiàn)的性能效果明顯超越了GPT-4V。
同樣是識(shí)別一張街景圖,MiniCPM-V2.0可以準(zhǔn)確地叫出大廈的名字,但GPT-4V卻只能回答“看不清楚”。
那么,MiniCPM-V2.0是怎么做到不“近視”的呢?
傳統(tǒng)做OCR的方法是比較粗暴的:它們只能處理一個(gè)固定尺寸的圖片,因此就會(huì)把偏大或不規(guī)則的圖片強(qiáng)行進(jìn)行壓縮。
這就會(huì)導(dǎo)致原始圖片中大量信息的丟失,再次放大的時(shí)候就仿佛近視眼一樣,很多細(xì)節(jié)都變成了馬賽克:
同樣的道理,傳統(tǒng)的方法在處理極端長(zhǎng)寬比的長(zhǎng)圖(如1:9)時(shí)效果會(huì)大打折扣,因?yàn)楹荛L(zhǎng)的圖壓縮成正方形同樣會(huì)造成大量信息丟失。
為此,面壁智能團(tuán)隊(duì)所提出的解法就是“分而治之”——
并不是暴力壓縮,而是把不規(guī)則的圖片分成若干個(gè)小的圖片,然后再按照大模型OCR的方式去自適應(yīng)處理。
與此同時(shí),為了解決大圖像“切塊”后所帶來(lái)的計(jì)算量增長(zhǎng)問(wèn)題,團(tuán)隊(duì)還針對(duì)性地做了一個(gè)視覺(jué)模塊壓縮的工作,可以讓增長(zhǎng)的計(jì)算量通過(guò)局部的一些視覺(jué)感知壓縮方法再打下來(lái)。
由此就保證了計(jì)算量和模型效果之間的平衡。
據(jù)團(tuán)隊(duì)介紹,MiniCPM-V2.0可以處理最大180萬(wàn)像素高清大圖,甚至1:9極限寬高比的高清圖片,對(duì)它們進(jìn)行高效編碼和無(wú)損識(shí)別。
具體效果如下所示:
除了多模態(tài)通用能力和OCR綜合能力之外,幻覺(jué)也是考量一個(gè)多模態(tài)大模型性能的重要指標(biāo)之一。
在這方面,MiniCPM-V2.0所參與的則是Object HalBench榜單。
結(jié)果顯示,其幻覺(jué)水平是與GPT-4V持平的:
而MiniCPM-V2.0,也還僅是面壁智能最新發(fā)布內(nèi)容中的一隅。
除了它之外,面壁智能還發(fā)布了額外三個(gè)同樣是“小體量”的大模型。
由此,在MiniCPM2.0的矩陣中就形成了“四大金剛”屹立的陣容——四驅(qū)小鋼炮。
那么四驅(qū)小鋼炮中的其它三個(gè)大模型還解鎖了哪些能力,我們繼續(xù)往下看。 1元=4150000tokens,適用更多端側(cè)場(chǎng)景
在追求“小”這件事上,面壁智能再次刷新自己的紀(jì)錄——MiniCPM-1.2B。
至于它的特點(diǎn),一言蔽之:
參數(shù)減少一半,仍保持上一代2.4B模型87%的綜合性能。
同樣的,在公開(kāi)測(cè)評(píng)榜單中,其成績(jī)依舊是做到了越級(jí)超越:
值得一提的是,MiniCPM-1.2B現(xiàn)在也是可以在手機(jī)端側(cè)跑起來(lái)的那種,速度可以達(dá)到25tokens/s(人類說(shuō)話速度的15-25倍):
不僅如此,MiniCPM-1.2B還做到了把價(jià)格和內(nèi)存打下去。
以iOS為例,MiniCPM-2.4B的量化模型是2.10G;而到了MiniCPM-1.2B,則只需要1.01G,內(nèi)存減少51.9%。
價(jià)格方面更是打了6折:1元=4150000tokens。
(計(jì)算方式為:蘋果A17Pro為130美元(約人民幣950元),如開(kāi)metal,速度最大為25tokens/s;若芯片使用5年,則推理代價(jià)為 (25×3600×24×365×5)/950=415萬(wàn) tokens/元)
這也就意味著現(xiàn)在更多端側(cè)場(chǎng)景“快好省”地跑大模型成為了可能,不只是手機(jī),還包括穿戴設(shè)備、PC、智能家居、汽車等等。
在各個(gè)大模型玩家都在你追我趕的長(zhǎng)文本領(lǐng)域,面壁智能這一次也出手了——MiniCPM-2B-128K。
直接解鎖了一個(gè)新的之最——最小的128K長(zhǎng)文本大模型。
在InfiniteBench榜單的平均成績(jī)也是超越了同體量的其它選手:
而之所以要做這個(gè)工作,在面壁智能看來(lái),是因?yàn)槟壳霸趯?shí)際真正需要調(diào)用長(zhǎng)文本大模型的時(shí)候,還是需要非常大的內(nèi)存才能做較好的推理工作。
面壁智能表示,他們還將繼續(xù)對(duì)MiniCPM-2B-128K做優(yōu)化工作,盡快讓其能夠在端側(cè)跑起來(lái)。
除此之外,面壁智能還在另一個(gè)大火的技術(shù)上發(fā)力,那便是MoE(混合專家)——發(fā)布了MiniCPM-MoE-8x2B模型。
(MoE能在不增加推理成本的前提下,為大模型帶來(lái)性能激增。)
通過(guò)MoE的性能增強(qiáng),讓2B小鋼炮(MiniCPM1.0)在其原來(lái)的基礎(chǔ)之上性能平均提高4.5個(gè)百分點(diǎn)。
從榜單成績(jī)上來(lái)看,MiniCPM-MoE-8x2B模型做到了在性能上的越級(jí)超越,并且推理成本僅為Gemma-7B的69.7%:
以上就是四驅(qū)小鋼炮的全部?jī)?nèi)容了。
不難看出,四驅(qū)小鋼炮中的每一個(gè)“驅(qū)動(dòng)力”都主打“夠小,但能打”。
而且縱觀面壁智能此次的發(fā)布,提及最多的兩個(gè)關(guān)鍵詞就是“端側(cè)”和“最小”。
那么面壁智能為何要如此極致地追求于此? 端側(cè),需要高效大模型
其實(shí)從大模型整體的發(fā)展趨勢(shì)來(lái)看,這兩個(gè)關(guān)鍵詞早已是定數(shù)。
自從ChatGPT引爆大模型以來(lái),先是在國(guó)內(nèi)外引發(fā)了一波百模大戰(zhàn)的熱潮,都將極大的算力和資金投入到了訓(xùn)練的過(guò)程當(dāng)中。
而當(dāng)?shù)鬃拇竽P陀?xùn)練完畢之后,各個(gè)大模型玩家又將工作重心向推理側(cè)傾斜,隨即也迎來(lái)了各式各樣AIGC應(yīng)用的百花齊放。
與此同時(shí),大模型不再僅僅較真于參數(shù)規(guī)模、跑分和測(cè)評(píng),更注重在應(yīng)用側(cè)發(fā)力。
一言蔽之,比的就是看誰(shuí)能“快好省”地用起來(lái)。
在端側(cè)的表現(xiàn)尤為明顯,比如大火的AI手機(jī)、AI PC便是很好的印證;而要讓大模型能夠在端側(cè)絲滑地跑起來(lái),那么其體量注定便不能過(guò)于龐大。
這就注定了端側(cè)的大模型必須要滿足兩點(diǎn):要小,還要性能高效;也就不難理解面壁智能為何如此極致地追求于此了。
那么接下來(lái)的一個(gè)問(wèn)題是:要怎么做?
面壁智能CEO李大海給出了一種“高效公式”解法:
高效大模型=高效訓(xùn)練+高效落地+高效推理
首先在高效訓(xùn)練這件事上,從面壁智能的first day開(kāi)始,就已然是一個(gè)終極目標(biāo)一樣的存在了。
面壁智能最早訓(xùn)練大模型之際還并沒(méi)有多機(jī)多卡的訓(xùn)練框架,為此,團(tuán)隊(duì)便自主研發(fā)了BMTrain框架來(lái)支撐大模型的訓(xùn)練,成本相比于GPT-3直接下降了90%之多。
現(xiàn)如今,面壁智能在高效訓(xùn)練中持續(xù)死磕的一個(gè)目標(biāo)就是“高效Scaling Law”,這也是“第一性原理”一樣的存在。
它不同于OpenAI向上大力出奇跡的玩法,主打的就是爭(zhēng)取更大的模型壓縮效率,用更少的高質(zhì)量數(shù)據(jù)訓(xùn)練出更好、更小的模型,這也是避免算力等資源巨大浪費(fèi)的方法之一。
其次是高效落地,具體來(lái)說(shuō)便是AI智能體(Agent)。
早在去年3月份之際,面壁智能便已經(jīng)發(fā)表了關(guān)于AI智能體的相關(guān)論文,隨后又將其演變成SaaS級(jí)智能軟件開(kāi)發(fā)平臺(tái)ChatDev,就是為了把這種“一句話搞開(kāi)發(fā)”的門檻再次打下去。
具體而言,在產(chǎn)品版ChatDev加持之下,在開(kāi)發(fā)的整個(gè)流程中,從產(chǎn)品經(jīng)理到程序員,再到設(shè)計(jì)和測(cè)試等等,統(tǒng)統(tǒng)都是AI智能體;開(kāi)發(fā)的迭代,也變成了有想法就行的事。
要知道,常規(guī)軟件的開(kāi)發(fā)周期是在2-3周,且成本在10000-50000美元之間(包括人力);如此對(duì)比起來(lái),可真的是大寫的“降本增效”!
除此之外,基于其大模型底座的基礎(chǔ)能力,面壁智能還曾開(kāi)源了兩項(xiàng)重磅的工作——AgentVerse和XAgent;加上我們剛才提到的ChatDev,三者共同形成了大模型驅(qū)動(dòng)的AI Agent“三駕馬車”,圍繞的核心便是AI智能體。
這也正是AI智能體能夠?qū)⒙涞剡@件事變得高效的原因。
到這里,僅是在高效訓(xùn)練和高效落地這件事上,面壁智能就已經(jīng)形成了“大模型+AI智能體”這樣的技術(shù)路線。
而就在前不久,AI大牛吳恩達(dá)也公開(kāi)在X中發(fā)表觀點(diǎn),對(duì)這樣的模式給予了高度的認(rèn)可。
至于高效大模型的最后一個(gè)部分高效推理,則是端云協(xié)同技術(shù)。李大海對(duì)此表示:
我們?cè)谧龀龈〉拇竽P椭筮是不夠的,我們還希望通過(guò)端和云的協(xié)同來(lái)讓所有的大模型的應(yīng)用都能夠做到一個(gè)更低的推理成本。
在這一方面,面壁智能其實(shí)也早已有所涉獵,所提出的銜尾蛇投機(jī)采樣技術(shù),可以說(shuō)是打破了傳統(tǒng)云側(cè)大模型服務(wù)方案中因大模型串行逐 token 生成并伴隨每次生成帶來(lái)的頻繁訪存,所造成的遠(yuǎn)低于計(jì)算上限的讀寫速度瓶頸。
具體到端、云之間的協(xié)作,就是將起草的小模型放在手機(jī)側(cè)、效果更好的大模型放在云側(cè),通過(guò)用小模型給大模型打草稿、做驗(yàn)證的方式,減少云端訪存讀寫工作,為云端減負(fù)。
如此,大小模型通過(guò)敏捷的雙向反饋機(jī)制,得到推理速度提升的互相激發(fā)。
以上便是面壁智能的“高效公式”了。
總結(jié)來(lái)看,面壁智能到目前為止所發(fā)力的一切,也與其智周萬(wàn)物的愿景高度契合——就是要讓大模型“快好省”地用起來(lái)。 One More Thing
面壁智能在近日也迎來(lái)了融資方面的好消息——
完成新一輪數(shù)億元融資。
李大海在公開(kāi)信中也透露了資金的用處,依舊將是技術(shù)和人才:
我們將進(jìn)一步加速團(tuán)隊(duì)建設(shè),提升面壁智能在大模型領(lǐng)域的技術(shù)實(shí)力和市場(chǎng)競(jìng)爭(zhēng)力。
特別地,我們將會(huì)著重引入更多優(yōu)秀人才,加強(qiáng)大模型發(fā)展的底層算力與數(shù)據(jù)基礎(chǔ),持續(xù)引領(lǐng)「高效大模型」路線,推動(dòng)大模型高效、快步應(yīng)用落地。
有技術(shù),有人才,有市場(chǎng),面壁智能是值得繼續(xù)關(guān)注一波的大模型實(shí)力派選手了。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。