5G確定性工業(yè)基站首商用,工業(yè)互聯(lián)網(wǎng)走上新高度李飛飛團隊前瞻性研究 多模態(tài)AI模型初顯空間智能AI終于邁過這道檻!Livekit 開源模型精準識別“你是否說完”!DeepSeek開源大模型開發(fā)者之一羅福莉?qū)⒓用诵∶?/a>廣汽詳解旗下首款復合翼飛行汽車 GOVY AirJet:最高飛行速度可達 250km/h清華大學聯(lián)合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創(chuàng)建音效家庭能源智聯(lián)自由 海辰儲能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroESOpenAI發(fā)布o3:AI 推理能力的重大突破,得分高達87.5%亞馬遜云科技推出Amazon Q Developer新功能小象超市,摸著美團外賣出海E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來電”有詐?抖音客服上線“驗證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達預期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運營商e&,展示全球首個固網(wǎng)游戲端到端網(wǎng)絡切片方案
  • 首頁 > 云計算頻道 > 大模型

    新一代旗艦端側(cè)模型:面壁 MiniCPM 2.0 發(fā)布

    2024年04月28日 11:56:45   來源:中文科技資訊

     

      全球領先的旗艦端側(cè)模型系列面壁 MiniCPM 上新!一口氣帶來:

      l 端側(cè)最強的多模態(tài)模型 MiniCPM-V 2.0:OCR 能力顯著增強、甚至部分能力比肩 Gemini Pro;

      l 適配更多端側(cè)場景的基座模型 MiniCPM-1.2B:性能超越 Llama2-13B、推理速度達到人類語速近 25 倍;

      l 最小的 128K 長文本模型 MiniCPM-2B-128K ;

      l 性能進一步增強的 MoE 架構模型 MiniCPM-MoE-8x2B

      此前發(fā)布的 MiniCPM 第一代,憑借其強有力的性能與極致低成本,堪稱大模型里的小鋼炮。 兩個月后的今天,我們秉承高效 Scaling Law 的科學方法論,持續(xù)挖掘小鋼炮的性能極限,將其升級為新一代 MiniCPM 2.0 系列模型。

      端側(cè)最強的多模態(tài)模型

      刷新OCR綜合性榜單開源模型最佳表現(xiàn),部分能力比肩Gemini-Pro、GPT-4V

      多模態(tài)能力已成為當前大模型的核心競爭力之一,智能終端設備由于其影像視覺處理的高頻需求,對在端側(cè)部署的人工智能模型提出了更高的多模態(tài)識別與推理能力要求。

      這一次,MiniCPM-V 2.0 不僅帶來最強端側(cè)多模態(tài)通用能力,更帶來極為驚艷的 OCR 表現(xiàn)。通過自研的高清圖像解碼技術,可以突破傳統(tǒng)困境,讓更為精準地識別充滿紛繁細節(jié)的街景、長圖在端側(cè)成為可能。

      甚至,還能識讀 2300 多年前的清華簡上一些難以辨別的古老字跡,以卓越的 OCR 能力,為我們叩響識讀老文字的大門。譬如,它不僅可以在三根竹簡中準確找到最短的竹簡,也能精準地識別出上面的字跡。甚至,連無從辨別的復雜楚文字都被正確解讀。

      作為多模態(tài)識別與推理能力的硬核指標,新一代 MiniCPM-V 2.0 在 OCR(光學字符識別)方面的成績,已被一項項權威榜單驗證。

      在 權威 OCR 綜合能⼒榜單 OCRBench 中,MiniCPM-V 2.0 秉承面壁「小鋼炮」系列「以小博大」傳統(tǒng),刷新了開源模型 SOTA。在 場景圖片文字識別榜單 TextVQA 中,越級超越全系 13B 量級通用模型,甚至部分能力比肩多模態(tài)領域代表性模型 Gemini Pro。

      這一次,新一代 MiniCPM-V 2.0 還加速解鎖了過去難以識別的高清圖像信息識別,譬如街景、長圖這類典型場景。

      為什么我們在手機上隨手可得的影像,用于 OCR 識別卻如此困難?這是由于傳統(tǒng)處理方法,只能處理固定尺寸圖片,會將大像素或不規(guī)則圖片強制壓縮,導致原始圖片中丟失大量信息、難以識別,這對充滿了細節(jié)文字信息、又大量零散分布的街景類畫面提出了極大挑戰(zhàn)。

      得益于自研高清圖片解碼技術,新一代 MiniCPM-V 2.0 帶來清晰大圖識別體驗的大幅提升?梢蕴幚碜畲 180 萬像素高清大圖,甚至 1:9 極限寬高比的高清圖片(譬如要翻閱好幾屏的長圖),對它們進行高效編碼和無損識別。

      具體效果如下:

      不僅如此,在 中文OCR 能力方面,MiniCPM-V 2.0 展現(xiàn)的性能效果明顯超越了 GPT-4V。例如,識別同一張街景圖,MiniCPM-V 2.0 可以準確地叫出大廈的名字,但 GPT-4V 卻只能回答“看不清楚”。

      此外,多模態(tài)通用能力 是衡量基座模型水平的重要指標。

      目前,在多模態(tài)大模型綜合評測權威平臺 OpenCompass 榜單上,MiniCPM-V 2.0 僅以 2B 量級規(guī)模,以小博大超過了一眾10B、17B甚至34B量級主流模型(如Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B) 。

      在又一項多模態(tài)大模型性能的重要指標:幻覺能力方面,MiniCPM-V 2.0 取得與 GPT-4V 持平水平(Object HalBench 榜單)。

      目前,MiniCPM-V 2.0 已經(jīng)可部署于智能手機,在圖像理解和推理效率方面取得了卓越的表現(xiàn):

      小鋼炮四連發(fā),還帶來

      更適配端側(cè)場景的1.2B尺寸,以及長文本、MoE版本

      在「高效大模型」的路徑下,把大模型變得更小!更強!推動大模型落地應用!

      我們再次追求極致,制造了一顆小小鋼炮—— MiniCPM-1.2B。參數(shù)減少一半,速度提升 38%,成本下降 60%(1元= 4150000 tokens) 。在手機上的 推理速度 達到 25 token / s,甚至相當于 人的語速的 15 ~25 倍。

      在公開測評榜單上,MiniCPM-1.2B 延續(xù) 以小博大、越級超越 的傳統(tǒng),取得了綜合性能超過 Qwen1.8B、Llama2-7B 甚至超過 Llama2-13B 的優(yōu)異成績。

      25 token / s, 則是將 MiniCPM-1.2B 離線部署于 iPhone 15 的實測成績。

      同時而來的,還有當前 最小的“128K長文本”模型,將原先4K上下文窗口一口氣擴增至 128K(20萬字)。

      在多維度長文本評測集 InfiniteBench 上,在多維度綜合性能評測中表現(xiàn)卓越,綜合性能超過了 Yarn-Mistral-7B-128k、Yi-6B-200k、ChatGLM3-6B-128k、LWM-Text-7B 等 6/7B 量級模型。此評測集針對大模型在長文本方面的五項能力(檢索、數(shù)學、代碼、問答和摘要)而設計,相較于當前主流的僅關注檢索能力的大海撈針測試更加全面。

      此外,我們通過 MoE 的性能增強,讓 2B 小鋼炮(MiniCPM 1.0)在其原來的基礎之上性能平均提高 4.5 個百分點。從榜單成績上來看,MiniCPM-MoE-8x2B 模型做到了在性能上的越級超越,并且推理成本僅為 Gemma-7B 的 69.7%。

      我們剛剛完成了新一輪數(shù)億元融資,面壁計劃正進行時,歡迎優(yōu)秀的人才加入。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    [No. S013]
    分享到微信

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。