新一代旗艦端側(cè)模型：面壁 MiniCPM 2.0 發(fā)布

2024年04月28日 11:56:45 來源：中文科技資訊

　　全球領先的旗艦端側(cè)模型系列面壁 MiniCPM 上新！一口氣帶來：

　　l 端側(cè)最強的多模態(tài)模型 MiniCPM-V 2.0：OCR 能力顯著增強、甚至部分能力比肩 Gemini Pro;

　　l 適配更多端側(cè)場景的基座模型 MiniCPM-1.2B：性能超越 Llama2-13B、推理速度達到人類語速近 25 倍;

　　l 最小的 128K 長文本模型 MiniCPM-2B-128K ;

　　l 性能進一步增強的 MoE 架構模型 MiniCPM-MoE-8x2B

　　此前發(fā)布的 MiniCPM 第一代，憑借其強有力的性能與極致低成本，堪稱大模型里的小鋼炮。兩個月后的今天，我們秉承高效 Scaling Law 的科學方法論，持續(xù)挖掘小鋼炮的性能極限，將其升級為新一代 MiniCPM 2.0 系列模型。

　　端側(cè)最強的多模態(tài)模型

　　刷新OCR綜合性榜單開源模型最佳表現(xiàn)，部分能力比肩Gemini-Pro、GPT-4V

　　多模態(tài)能力已成為當前大模型的核心競爭力之一，智能終端設備由于其影像視覺處理的高頻需求,對在端側(cè)部署的人工智能模型提出了更高的多模態(tài)識別與推理能力要求。

　　這一次，MiniCPM-V 2.0 不僅帶來最強端側(cè)多模態(tài)通用能力，更帶來極為驚艷的 OCR 表現(xiàn)。通過自研的高清圖像解碼技術，可以突破傳統(tǒng)困境，讓更為精準地識別充滿紛繁細節(jié)的街景、長圖在端側(cè)成為可能。

　　甚至，還能識讀 2300 多年前的清華簡上一些難以辨別的古老字跡，以卓越的 OCR 能力，為我們叩響識讀老文字的大門。譬如，它不僅可以在三根竹簡中準確找到最短的竹簡，也能精準地識別出上面的字跡。甚至，連無從辨別的復雜楚文字都被正確解讀。

　　作為多模態(tài)識別與推理能力的硬核指標，新一代 MiniCPM-V 2.0 在 OCR(光學字符識別)方面的成績，已被一項項權威榜單驗證。

　　在權威 OCR 綜合能⼒榜單 OCRBench 中，MiniCPM-V 2.0 秉承面壁「小鋼炮」系列「以小博大」傳統(tǒng)，刷新了開源模型 SOTA。在場景圖片文字識別榜單 TextVQA 中，越級超越全系 13B 量級通用模型，甚至部分能力比肩多模態(tài)領域代表性模型 Gemini Pro。

　　這一次，新一代 MiniCPM-V 2.0 還加速解鎖了過去難以識別的高清圖像信息識別，譬如街景、長圖這類典型場景。

　　為什么我們在手機上隨手可得的影像，用于 OCR 識別卻如此困難?這是由于傳統(tǒng)處理方法，只能處理固定尺寸圖片，會將大像素或不規(guī)則圖片強制壓縮，導致原始圖片中丟失大量信息、難以識別，這對充滿了細節(jié)文字信息、又大量零散分布的街景類畫面提出了極大挑戰(zhàn)。

　　得益于自研高清圖片解碼技術，新一代 MiniCPM-V 2.0 帶來清晰大圖識別體驗的大幅提升�？梢蕴幚碜畲� 180 萬像素高清大圖，甚至 1:9 極限寬高比的高清圖片(譬如要翻閱好幾屏的長圖)，對它們進行高效編碼和無損識別。

　　具體效果如下：

　　不僅如此，在中文OCR 能力方面，MiniCPM-V 2.0 展現(xiàn)的性能效果明顯超越了 GPT-4V。例如，識別同一張街景圖，MiniCPM-V 2.0 可以準確地叫出大廈的名字，但 GPT-4V 卻只能回答“看不清楚”。

　　此外，多模態(tài)通用能力是衡量基座模型水平的重要指標。

　　目前，在多模態(tài)大模型綜合評測權威平臺 OpenCompass 榜單上，MiniCPM-V 2.0 僅以 2B 量級規(guī)模，以小博大超過了一眾10B、17B甚至34B量級主流模型(如Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B) 。

　　在又一項多模態(tài)大模型性能的重要指標：幻覺能力方面，MiniCPM-V 2.0 取得與 GPT-4V 持平水平(Object HalBench 榜單)。

　　目前，MiniCPM-V 2.0 已經(jīng)可部署于智能手機，在圖像理解和推理效率方面取得了卓越的表現(xiàn)：

　　小鋼炮四連發(fā)，還帶來

　　更適配端側(cè)場景的1.2B尺寸，以及長文本、MoE版本

　　在「高效大模型」的路徑下，把大模型變得更小!更強!推動大模型落地應用!

　　我們再次追求極致，制造了一顆小小鋼炮—— MiniCPM-1.2B。參數(shù)減少一半，速度提升 38%，成本下降 60%(1元= 4150000 tokens) 。在手機上的推理速度達到 25 token / s，甚至相當于人的語速的 15 ～25 倍。

　　在公開測評榜單上，MiniCPM-1.2B 延續(xù) 以小博大、越級超越的傳統(tǒng)，取得了綜合性能超過 Qwen1.8B、Llama2-7B 甚至超過 Llama2-13B 的優(yōu)異成績。

　　25 token / s，則是將 MiniCPM-1.2B 離線部署于 iPhone 15 的實測成績。

　　同時而來的，還有當前最小的“128K長文本”模型，將原先4K上下文窗口一口氣擴增至 128K(20萬字)。

　　在多維度長文本評測集 InfiniteBench 上，在多維度綜合性能評測中表現(xiàn)卓越，綜合性能超過了 Yarn-Mistral-7B-128k、Yi-6B-200k、ChatGLM3-6B-128k、LWM-Text-7B 等 6/7B 量級模型。此評測集針對大模型在長文本方面的五項能力(檢索、數(shù)學、代碼、問答和摘要)而設計，相較于當前主流的僅關注檢索能力的大海撈針測試更加全面。