識(shí)讀2300多年的戰(zhàn)國(guó)竹簡(jiǎn)，竟只用2B端側(cè)大模型！面壁發(fā)布新一代“小鋼炮”

2024年04月15日 17:53:52 金磊來(lái)源：微信公眾號(hào) 量子位

　　本文來(lái)自于微信公眾號(hào) 量子位(ID:QbitAI)，作者:金磊。

　　識(shí)讀距今2300多年戰(zhàn)國(guó)時(shí)期的上古竹簡(jiǎn)，AI正在立功。

　　而且在這背后的“大功臣”，竟是只有2B大小的多模態(tài)大模型!

　　這批上古竹簡(jiǎn)，由清華大學(xué)于2008年7月收藏，因此也被稱為清華簡(jiǎn)。

　　清華簡(jiǎn)的數(shù)量大約是2500枚，其內(nèi)容在已被發(fā)現(xiàn)的先秦竹簡(jiǎn)中也是前所未見(jiàn)，被認(rèn)為是繼甲骨文、敦煌遺書、居延漢簡(jiǎn)、云夢(mèng)秦簡(jiǎn)之后的又一重大發(fā)現(xiàn)。

　　不過(guò)也正因如此，識(shí)讀清華簡(jiǎn)便成了老大難的問(wèn)題，因?yàn)樯厦娴奈淖只旧隙际浅淖郑厥蓟式y(tǒng)一文字后就已被廢棄。

　　而就在最近，研究人員在一個(gè)2B大小的多模態(tài)大模型助力之下，成功地在清華簡(jiǎn)的版式檢測(cè)和文字識(shí)別上取得突破:

　　例如詢問(wèn)這個(gè)大模型:

　　這張圖里最短的木頭上第一個(gè)字是什么?

　　它不僅可以準(zhǔn)確找到最短的竹簡(jiǎn)，也能精準(zhǔn)地識(shí)別出上面的楚文字是現(xiàn)代的“可”字。

　　即使是和現(xiàn)代文字差異較大的古文字，這個(gè)大模型也能查字詢意，得出正確結(jié)論是“我”。

　　并且研究團(tuán)隊(duì)還表示，他們正在嘗試?yán)^續(xù)用這種方式進(jìn)一步做探索。

　　嗯，不得不說(shuō)，大模型“以小博大”這事，已經(jīng)開(kāi)始波及到多模態(tài)了。

　　那么這個(gè)2B大模型，到底是什么來(lái)頭?最強(qiáng)端側(cè)多模態(tài)大模型，手機(jī)就能跑

　　不賣關(guān)子。

　　這個(gè)2B多模態(tài)大模型，正是由清華系初創(chuàng)公司面壁智能最新升級(jí)的小鋼炮系列，最強(qiáng)端側(cè)多模態(tài)大模型——MiniCPM-V2.0。

　　劃個(gè)重點(diǎn):手機(jī)端就能跑!

　　那么它的能力到底幾何?為什么說(shuō)是最強(qiáng)端側(cè)多模態(tài)大模型?

　　首先來(lái)看多模態(tài)通用能力，這也是能夠衡量其底座水平的一個(gè)重要指標(biāo)。

　　在多模態(tài)大模型綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass榜單上測(cè)試的結(jié)果顯示，MiniCPM-V2.0雖然只有2B的體量，但得分已經(jīng)超過(guò)了10B、17B甚至34B的主流選手:

　　其次再看OCR(光學(xué)字符識(shí)別)綜合能力，這可以說(shuō)是檢測(cè)多模態(tài)識(shí)別與推理能力最硬核的指標(biāo)。

　　在權(quán)威的OCR綜合能⼒榜單OCRBench中，MiniCPM-V2.0同樣是用2B的“姿勢(shì)”競(jìng)技，刷新了開(kāi)源模型SOTA:

　　并且在場(chǎng)景圖片文字識(shí)別榜單TextVQA中，MiniCPM-V2.0更是直接秒殺了全系13B體量的通用模型。

　　甚至部分能力已經(jīng)可以比肩多模態(tài)領(lǐng)域的王者Gemini Pro:

　　不僅如此，在中文OCR能力方面，MiniCPM-V2.0展現(xiàn)的性能效果明顯超越了GPT-4V。

　　同樣是識(shí)別一張街景圖，MiniCPM-V2.0可以準(zhǔn)確地叫出大廈的名字，但GPT-4V卻只能回答“看不清楚”。

　　那么，MiniCPM-V2.0是怎么做到不“近視”的呢?

　　傳統(tǒng)做OCR的方法是比較粗暴的:它們只能處理一個(gè)固定尺寸的圖片，因此就會(huì)把偏大或不規(guī)則的圖片強(qiáng)行進(jìn)行壓縮。

　　這就會(huì)導(dǎo)致原始圖片中大量信息的丟失，再次放大的時(shí)候就仿佛近視眼一樣，很多細(xì)節(jié)都變成了馬賽克:

　　同樣的道理，傳統(tǒng)的方法在處理極端長(zhǎng)寬比的長(zhǎng)圖(如1:9)時(shí)效果會(huì)大打折扣，因?yàn)楹荛L(zhǎng)的圖壓縮成正方形同樣會(huì)造成大量信息丟失。

　　為此，面壁智能團(tuán)隊(duì)所提出的解法就是“分而治之”——

　　并不是暴力壓縮，而是把不規(guī)則的圖片分成若干個(gè)小的圖片，然后再按照大模型OCR的方式去自適應(yīng)處理。

　　與此同時(shí)，為了解決大圖像“切塊”后所帶來(lái)的計(jì)算量增長(zhǎng)問(wèn)題，團(tuán)隊(duì)還針對(duì)性地做了一個(gè)視覺(jué)模塊壓縮的工作，可以讓增長(zhǎng)的計(jì)算量通過(guò)局部的一些視覺(jué)感知壓縮方法再打下來(lái)。

　　由此就保證了計(jì)算量和模型效果之間的平衡。

　　據(jù)團(tuán)隊(duì)介紹，MiniCPM-V2.0可以處理最大180萬(wàn)像素高清大圖，甚至1:9極限寬高比的高清圖片，對(duì)它們進(jìn)行高效編碼和無(wú)損識(shí)別。

　　具體效果如下所示:

　　除了多模態(tài)通用能力和OCR綜合能力之外，幻覺(jué)也是考量一個(gè)多模態(tài)大模型性能的重要指標(biāo)之一。

　　在這方面，MiniCPM-V2.0所參與的則是Object HalBench榜單。

　　結(jié)果顯示，其幻覺(jué)水平是與GPT-4V持平的:

　　而MiniCPM-V2.0，也還僅是面壁智能最新發(fā)布內(nèi)容中的一隅。

　　除了它之外，面壁智能還發(fā)布了額外三個(gè)同樣是“小體量”的大模型。

　　由此，在MiniCPM2.0的矩陣中就形成了“四大金剛”屹立的陣容——四驅(qū)小鋼炮。

　　那么四驅(qū)小鋼炮中的其它三個(gè)大模型還解鎖了哪些能力，我們繼續(xù)往下看。 1元=4150000tokens，適用更多端側(cè)場(chǎng)景

　　在追求“小”這件事上，面壁智能再次刷新自己的紀(jì)錄——MiniCPM-1.2B。

　　至于它的特點(diǎn)，一言蔽之:

　　參數(shù)減少一半，仍保持上一代2.4B模型87%的綜合性能。

　　同樣的，在公開(kāi)測(cè)評(píng)榜單中，其成績(jī)依舊是做到了越級(jí)超越:

　　值得一提的是，MiniCPM-1.2B現(xiàn)在也是可以在手機(jī)端側(cè)跑起來(lái)的那種，速度可以達(dá)到25tokens/s(人類說(shuō)話速度的15-25倍):

　　不僅如此，MiniCPM-1.2B還做到了把價(jià)格和內(nèi)存打下去。

　　以iOS為例，MiniCPM-2.4B的量化模型是2.10G;而到了MiniCPM-1.2B，則只需要1.01G，內(nèi)存減少51.9%。

　　價(jià)格方面更是打了6折:1元=4150000tokens。

　　(計(jì)算方式為:蘋果A17Pro為130美元(約人民幣950元)，如開(kāi)metal，速度最大為25tokens/s;若芯片使用5年，則推理代價(jià)為 (25×3600×24×365×5)/950=415萬(wàn) tokens/元)

　　這也就意味著現(xiàn)在更多端側(cè)場(chǎng)景“快好省”地跑大模型成為了可能，不只是手機(jī)，還包括穿戴設(shè)備、PC、智能家居、汽車等等。

　　在各個(gè)大模型玩家都在你追我趕的長(zhǎng)文本領(lǐng)域，面壁智能這一次也出手了——MiniCPM-2B-128K。

　　直接解鎖了一個(gè)新的之最——最小的128K長(zhǎng)文本大模型。

　　在InfiniteBench榜單的平均成績(jī)也是超越了同體量的其它選手:

　　而之所以要做這個(gè)工作，在面壁智能看來(lái)，是因?yàn)槟壳霸趯?shí)際真正需要調(diào)用長(zhǎng)文本大模型的時(shí)候，還是需要非常大的內(nèi)存才能做較好的推理工作。

　　面壁智能表示，他們還將繼續(xù)對(duì)MiniCPM-2B-128K做優(yōu)化工作，盡快讓其能夠在端側(cè)跑起來(lái)。

　　除此之外，面壁智能還在另一個(gè)大火的技術(shù)上發(fā)力，那便是MoE(混合專家)——發(fā)布了MiniCPM-MoE-8x2B模型。

　　(MoE能在不增加推理成本的前提下，為大模型帶來(lái)性能激增。)

　　通過(guò)MoE的性能增強(qiáng)，讓2B小鋼炮(MiniCPM1.0)在其原來(lái)的基礎(chǔ)之上性能平均提高4.5個(gè)百分點(diǎn)。

　　從榜單成績(jī)上來(lái)看，MiniCPM-MoE-8x2B模型做到了在性能上的越級(jí)超越，并且推理成本僅為Gemma-7B的69.7%:

　　以上就是四驅(qū)小鋼炮的全部?jī)?nèi)容了。

　　不難看出，四驅(qū)小鋼炮中的每一個(gè)“驅(qū)動(dòng)力”都主打“夠小，但能打”。

　　而且縱觀面壁智能此次的發(fā)布，提及最多的兩個(gè)關(guān)鍵詞就是“端側(cè)”和“最小”。

　　那么面壁智能為何要如此極致地追求于此? 端側(cè)，需要高效大模型

　　其實(shí)從大模型整體的發(fā)展趨勢(shì)來(lái)看，這兩個(gè)關(guān)鍵詞早已是定數(shù)。

　　自從ChatGPT引爆大模型以來(lái)，先是在國(guó)內(nèi)外引發(fā)了一波百模大戰(zhàn)的熱潮，都將極大的算力和資金投入到了訓(xùn)練的過(guò)程當(dāng)中。

　　而當(dāng)?shù)鬃拇竽Ｐ陀?xùn)練完畢之后，各個(gè)大模型玩家又將工作重心向推理側(cè)傾斜，隨即也迎來(lái)了各式各樣AIGC應(yīng)用的百花齊放。

　　與此同時(shí)，大模型不再僅僅較真于參數(shù)規(guī)模、跑分和測(cè)評(píng)，更注重在應(yīng)用側(cè)發(fā)力。

　　一言蔽之，比的就是看誰(shuí)能“快好省”地用起來(lái)。

　　在端側(cè)的表現(xiàn)尤為明顯，比如大火的AI手機(jī)、AI PC便是很好的印證;而要讓大模型能夠在端側(cè)絲滑地跑起來(lái)，那么其體量注定便不能過(guò)于龐大。

　　這就注定了端側(cè)的大模型必須要滿足兩點(diǎn):要小，還要性能高效;也就不難理解面壁智能為何如此極致地追求于此了。

　　那么接下來(lái)的一個(gè)問(wèn)題是:要怎么做?

　　面壁智能CEO李大海給出了一種“高效公式”解法:

　　高效大模型=高效訓(xùn)練+高效落地+高效推理

　　首先在高效訓(xùn)練這件事上，從面壁智能的first day開(kāi)始，就已然是一個(gè)終極目標(biāo)一樣的存在了。

　　面壁智能最早訓(xùn)練大模型之際還并沒(méi)有多機(jī)多卡的訓(xùn)練框架，為此，團(tuán)隊(duì)便自主研發(fā)了BMTrain框架來(lái)支撐大模型的訓(xùn)練，成本相比于GPT-3直接下降了90%之多。

　　現(xiàn)如今，面壁智能在高效訓(xùn)練中持續(xù)死磕的一個(gè)目標(biāo)就是“高效Scaling Law”，這也是“第一性原理”一樣的存在。

　　它不同于OpenAI向上大力出奇跡的玩法，主打的就是爭(zhēng)取更大的模型壓縮效率，用更少的高質(zhì)量數(shù)據(jù)訓(xùn)練出更好、更小的模型，這也是避免算力等資源巨大浪費(fèi)的方法之一。

　　其次是高效落地，具體來(lái)說(shuō)便是AI智能體(Agent)。

　　早在去年3月份之際，面壁智能便已經(jīng)發(fā)表了關(guān)于AI智能體的相關(guān)論文，隨后又將其演變成SaaS級(jí)智能軟件開(kāi)發(fā)平臺(tái)ChatDev，就是為了把這種“一句話搞開(kāi)發(fā)”的門檻再次打下去。

　　具體而言，在產(chǎn)品版ChatDev加持之下，在開(kāi)發(fā)的整個(gè)流程中，從產(chǎn)品經(jīng)理到程序員，再到設(shè)計(jì)和測(cè)試等等，統(tǒng)統(tǒng)都是AI智能體;開(kāi)發(fā)的迭代，也變成了有想法就行的事。

　　要知道，常規(guī)軟件的開(kāi)發(fā)周期是在2-3周，且成本在10000-50000美元之間(包括人力);如此對(duì)比起來(lái)，可真的是大寫的“降本增效”!

　　除此之外，基于其大模型底座的基礎(chǔ)能力，面壁智能還曾開(kāi)源了兩項(xiàng)重磅的工作——AgentVerse和XAgent;加上我們剛才提到的ChatDev，三者共同形成了大模型驅(qū)動(dòng)的AI Agent“三駕馬車”，圍繞的核心便是AI智能體。

　　這也正是AI智能體能夠?qū)⒙涞剡@件事變得高效的原因。

　　到這里，僅是在高效訓(xùn)練和高效落地這件事上，面壁智能就已經(jīng)形成了“大模型+AI智能體”這樣的技術(shù)路線。

　　而就在前不久，AI大牛吳恩達(dá)也公開(kāi)在X中發(fā)表觀點(diǎn)，對(duì)這樣的模式給予了高度的認(rèn)可。

　　至于高效大模型的最后一個(gè)部分高效推理，則是端云協(xié)同技術(shù)。李大海對(duì)此表示:

　　我們?cè)谧龀龈〉拇竽Ｐ椭筮€是不夠的，我們還希望通過(guò)端和云的協(xié)同來(lái)讓所有的大模型的應(yīng)用都能夠做到一個(gè)更低的推理成本。

　　在這一方面，面壁智能其實(shí)也早已有所涉獵，所提出的銜尾蛇投機(jī)采樣技術(shù)，可以說(shuō)是打破了傳統(tǒng)云側(cè)大模型服務(wù)方案中因大模型串行逐 token 生成并伴隨每次生成帶來(lái)的頻繁訪存，所造成的遠(yuǎn)低于計(jì)算上限的讀寫速度瓶頸。

　　具體到端、云之間的協(xié)作，就是將起草的小模型放在手機(jī)側(cè)、效果更好的大模型放在云側(cè)，通過(guò)用小模型給大模型打草稿、做驗(yàn)證的方式，減少云端訪存讀寫工作，為云端減負(fù)。

　　如此，大小模型通過(guò)敏捷的雙向反饋機(jī)制，得到推理速度提升的互相激發(fā)。

　　以上便是面壁智能的“高效公式”了。

　　總結(jié)來(lái)看，面壁智能到目前為止所發(fā)力的一切，也與其智周萬(wàn)物的愿景高度契合——就是要讓大模型“快好省”地用起來(lái)。 One More Thing

　　面壁智能在近日也迎來(lái)了融資方面的好消息——

　　完成新一輪數(shù)億元融資。

　　李大海在公開(kāi)信中也透露了資金的用處，依舊將是技術(shù)和人才:

　　我們將進(jìn)一步加速團(tuán)隊(duì)建設(shè)，提升面壁智能在大模型領(lǐng)域的技術(shù)實(shí)力和市場(chǎng)競(jìng)爭(zhēng)力。

　　特別地，我們將會(huì)著重引入更多優(yōu)秀人才，加強(qiáng)大模型發(fā)展的底層算力與數(shù)據(jù)基礎(chǔ)，持續(xù)引領(lǐng)「高效大模型」路線，推動(dòng)大模型高效、快步應(yīng)用落地。

　　有技術(shù)，有人才，有市場(chǎng)，面壁智能是值得繼續(xù)關(guān)注一波的大模型實(shí)力派選手了。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信