全球領先的旗艦端側(cè)模型系列面壁 MiniCPM 上新!一口氣帶來:
l 端側(cè)最強的多模態(tài)模型 MiniCPM-V 2.0:OCR 能力顯著增強、甚至部分能力比肩 Gemini Pro;
l 適配更多端側(cè)場景的基座模型 MiniCPM-1.2B:性能超越 Llama2-13B、推理速度達到人類語速近 25 倍;
l 最小的 128K 長文本模型 MiniCPM-2B-128K ;
l 性能進一步增強的 MoE 架構模型 MiniCPM-MoE-8x2B
此前發(fā)布的 MiniCPM 第一代,憑借其強有力的性能與極致低成本,堪稱大模型里的小鋼炮。 兩個月后的今天,我們秉承高效 Scaling Law 的科學方法論,持續(xù)挖掘小鋼炮的性能極限,將其升級為新一代 MiniCPM 2.0 系列模型。
端側(cè)最強的多模態(tài)模型
刷新OCR綜合性榜單開源模型最佳表現(xiàn),部分能力比肩Gemini-Pro、GPT-4V
多模態(tài)能力已成為當前大模型的核心競爭力之一,智能終端設備由于其影像視覺處理的高頻需求,對在端側(cè)部署的人工智能模型提出了更高的多模態(tài)識別與推理能力要求。
這一次,MiniCPM-V 2.0 不僅帶來最強端側(cè)多模態(tài)通用能力,更帶來極為驚艷的 OCR 表現(xiàn)。通過自研的高清圖像解碼技術,可以突破傳統(tǒng)困境,讓更為精準地識別充滿紛繁細節(jié)的街景、長圖在端側(cè)成為可能。
甚至,還能識讀 2300 多年前的清華簡上一些難以辨別的古老字跡,以卓越的 OCR 能力,為我們叩響識讀老文字的大門。譬如,它不僅可以在三根竹簡中準確找到最短的竹簡,也能精準地識別出上面的字跡。甚至,連無從辨別的復雜楚文字都被正確解讀。
作為多模態(tài)識別與推理能力的硬核指標,新一代 MiniCPM-V 2.0 在 OCR(光學字符識別)方面的成績,已被一項項權威榜單驗證。
在 權威 OCR 綜合能⼒榜單 OCRBench 中,MiniCPM-V 2.0 秉承面壁「小鋼炮」系列「以小博大」傳統(tǒng),刷新了開源模型 SOTA。在 場景圖片文字識別榜單 TextVQA 中,越級超越全系 13B 量級通用模型,甚至部分能力比肩多模態(tài)領域代表性模型 Gemini Pro。
這一次,新一代 MiniCPM-V 2.0 還加速解鎖了過去難以識別的高清圖像信息識別,譬如街景、長圖這類典型場景。
為什么我們在手機上隨手可得的影像,用于 OCR 識別卻如此困難?這是由于傳統(tǒng)處理方法,只能處理固定尺寸圖片,會將大像素或不規(guī)則圖片強制壓縮,導致原始圖片中丟失大量信息、難以識別,這對充滿了細節(jié)文字信息、又大量零散分布的街景類畫面提出了極大挑戰(zhàn)。
得益于自研高清圖片解碼技術,新一代 MiniCPM-V 2.0 帶來清晰大圖識別體驗的大幅提升?梢蕴幚碜畲 180 萬像素高清大圖,甚至 1:9 極限寬高比的高清圖片(譬如要翻閱好幾屏的長圖),對它們進行高效編碼和無損識別。
具體效果如下:
不僅如此,在 中文OCR 能力方面,MiniCPM-V 2.0 展現(xiàn)的性能效果明顯超越了 GPT-4V。例如,識別同一張街景圖,MiniCPM-V 2.0 可以準確地叫出大廈的名字,但 GPT-4V 卻只能回答“看不清楚”。
此外,多模態(tài)通用能力 是衡量基座模型水平的重要指標。
目前,在多模態(tài)大模型綜合評測權威平臺 OpenCompass 榜單上,MiniCPM-V 2.0 僅以 2B 量級規(guī)模,以小博大超過了一眾10B、17B甚至34B量級主流模型(如Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B) 。
在又一項多模態(tài)大模型性能的重要指標:幻覺能力方面,MiniCPM-V 2.0 取得與 GPT-4V 持平水平(Object HalBench 榜單)。
目前,MiniCPM-V 2.0 已經(jīng)可部署于智能手機,在圖像理解和推理效率方面取得了卓越的表現(xiàn):
小鋼炮四連發(fā),還帶來
更適配端側(cè)場景的1.2B尺寸,以及長文本、MoE版本
在「高效大模型」的路徑下,把大模型變得更小!更強!推動大模型落地應用!
我們再次追求極致,制造了一顆小小鋼炮—— MiniCPM-1.2B。參數(shù)減少一半,速度提升 38%,成本下降 60%(1元= 4150000 tokens) 。在手機上的 推理速度 達到 25 token / s,甚至相當于 人的語速的 15 ~25 倍。
在公開測評榜單上,MiniCPM-1.2B 延續(xù) 以小博大、越級超越 的傳統(tǒng),取得了綜合性能超過 Qwen1.8B、Llama2-7B 甚至超過 Llama2-13B 的優(yōu)異成績。
25 token / s, 則是將 MiniCPM-1.2B 離線部署于 iPhone 15 的實測成績。
同時而來的,還有當前 最小的“128K長文本”模型,將原先4K上下文窗口一口氣擴增至 128K(20萬字)。
在多維度長文本評測集 InfiniteBench 上,在多維度綜合性能評測中表現(xiàn)卓越,綜合性能超過了 Yarn-Mistral-7B-128k、Yi-6B-200k、ChatGLM3-6B-128k、LWM-Text-7B 等 6/7B 量級模型。此評測集針對大模型在長文本方面的五項能力(檢索、數(shù)學、代碼、問答和摘要)而設計,相較于當前主流的僅關注檢索能力的大海撈針測試更加全面。
此外,我們通過 MoE 的性能增強,讓 2B 小鋼炮(MiniCPM 1.0)在其原來的基礎之上性能平均提高 4.5 個百分點。從榜單成績上來看,MiniCPM-MoE-8x2B 模型做到了在性能上的越級超越,并且推理成本僅為 Gemma-7B 的 69.7%。
我們剛剛完成了新一輪數(shù)億元融資,面壁計劃正進行時,歡迎優(yōu)秀的人才加入。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。