中國(guó)品牌,讓東南亞感受“消費(fèi)升級(jí)”小紅書(shū)本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫(huà)像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車(chē)產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶(hù)可在朋友圈發(fā)實(shí)況照片了蘋(píng)果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚(yú)相關(guān)搜索量暴漲384%2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷(xiāo)量及銷(xiāo)售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專(zhuān)利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    國(guó)產(chǎn)「小鋼炮」一夜干翻巨無(wú)霸GPT-4V、Gemini Pro!穩(wěn)坐端側(cè)多模態(tài)鐵王座

    2024年05月21日 09:13:13   來(lái)源:新智元公眾號(hào)

      殺瘋了!一夜之間,全球最強(qiáng)端側(cè)多模態(tài)模型再次刷新,僅用8B參數(shù),擊敗了多模態(tài)巨無(wú)霸Gemini Pro、GPT-4V。而且,其OCR長(zhǎng)難圖識(shí)別刷新SOTA,圖像編碼速度暴漲150倍。這是國(guó)產(chǎn)頭部大模型公司獻(xiàn)給開(kāi)發(fā)者們最浪漫的520禮物。

      拳打GPT-4V,腳踢Gemini Pro,僅僅8B參數(shù)就能擊敗多模態(tài)大模型王者。

      今天,這個(gè)全球最強(qiáng)端側(cè)多模態(tài)模型徹底「殺瘋了」!

      眾所周知,端側(cè)模型是AI發(fā)展的大趨勢(shì)——從微軟、谷歌再到蘋(píng)果和英特爾,全球科技巨頭都在爭(zhēng)搶在PC和手機(jī)等端側(cè)場(chǎng)景的AI落地。

      但萬(wàn)萬(wàn)沒(méi)想到的是,端側(cè)模型的性能竟然可以這么猛,進(jìn)化速度竟然可以這么快!

      更令人驚喜的是,它不是來(lái)自國(guó)外大廠,而是出自國(guó)內(nèi)大模型研發(fā)實(shí)力最頭部的公司面壁智能——他們最新打造了面壁小鋼炮MiniCPM-Llama3-V 2.5。

      而且,選擇在今天520這個(gè)特殊的日子推出,據(jù)說(shuō)是送給開(kāi)源社區(qū)的情人節(jié)禮物,簡(jiǎn)直浪漫的不像個(gè)科技公司~

      MiniCPM-Llama3-V 2.5開(kāi)源地址:

      https://github.com/OpenBMB/MiniCPM-V

      MiniCPM系列開(kāi)源地址:

      https://github.com/OpenBMB/MiniCPM

      Hugging Face下載地址:

      https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

      那么這個(gè)小鋼炮究竟有多強(qiáng)?何以能擔(dān)當(dāng)?shù)闷鹑蜃顝?qiáng)端側(cè)多模態(tài)模型的稱(chēng)號(hào)?

      總結(jié)來(lái)講,MiniCPM-Llama3-V 2.5不僅支持30+多種語(yǔ)言,而且還具備:

      最強(qiáng)端側(cè)多模態(tài)綜合性能:超越多模態(tài)巨無(wú)霸Gemini Pro、GPT-4V;

      OCR能力SOTA!9倍像素更清晰,難圖長(zhǎng)圖長(zhǎng)文本精準(zhǔn)識(shí)別;

      圖像編碼快150倍!首次端側(cè)系統(tǒng)級(jí)多模態(tài)加速。

      下面這張圖反映了在全球范圍內(nèi),小參數(shù)、高性能的多模態(tài)大模型已經(jīng)成為趨勢(shì);

      而其中最亮眼的一顆星正是面壁小鋼炮MiniCPM-Llama3-V 2.5。

      MiniCPM-Llama3-V 2.5用實(shí)力證明了——模型不是只有「參數(shù)越大才能性能越好」,而是可以用最小參數(shù)撬動(dòng)最強(qiáng)性能!

      另外隨著大模型參數(shù)愈益降低、端側(cè)算力愈益增強(qiáng),高性能端側(cè)模型勢(shì)頭強(qiáng)勁。

      而手機(jī)、PC等智能終端設(shè)備因其高頻的影像視覺(jué)處理需求,對(duì)在端側(cè)部署AI模型提出了更高的多模態(tài)識(shí)別與推理能力要求。

      從面壁「小鋼炮」三月三級(jí)跳的迅猛進(jìn)化來(lái)看,推動(dòng)推理成本大幅降低、大模型高效落地,勝利在望。

      OCR能力SOTA+最強(qiáng)端側(cè)多模態(tài)

      8B端側(cè)模型,超越GPT-4V、Gemini Pro

      這一次,MiniCPM-Llama3-V 2.5以8B端側(cè)模型參數(shù)量級(jí),貢獻(xiàn)了驚艷的 OCR(光學(xué)字符識(shí)別)SOTA成績(jī),以及端側(cè)模型中的最佳多模態(tài)綜合成績(jī)與幻覺(jué)能力水平。

      模型雷達(dá)圖,MiniCPM-Llama3-V 2.5綜合能力水平全面優(yōu)秀

      在綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass上,MiniCPM-Llama3-V 2.5以小博大,綜合性能超越多模態(tài)巨無(wú)霸GPT-4V和Gemini Pro。

      OCR(光學(xué)字符識(shí)別)是多模態(tài)大模型最重要的能力之一,也是考察多模態(tài)識(shí)別與推理能力的硬核指標(biāo)。

      新一代MiniCPM-Llama3-V 2.5 在OCR綜合能⼒權(quán)威榜單OCRBench上,越級(jí)超越了Claude 3V Opus、Gemini Pro等標(biāo)桿模型,實(shí)現(xiàn)了性能SOTA。

      在評(píng)估多模態(tài)大模型性能可靠性的重要指標(biāo)——幻覺(jué)能力上,MiniCPM-Llama3-V 2.5在Object HalBench榜單上超越了GPT-4V等眾多模型(注:目標(biāo)幻覺(jué)率應(yīng)為0)。

      在評(píng)估多模態(tài)模型的基本現(xiàn)實(shí)世界空間理解能力的RealWorldQA榜單上,MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro,這對(duì)8B模型而言難能可貴。

      快150倍!首次端側(cè)系統(tǒng)級(jí)加速

      支持30+多語(yǔ)言,擁抱世界開(kāi)源社區(qū)

      首次進(jìn)行端側(cè)系統(tǒng)級(jí)加速,MiniCPM-Llama3-V 2.5已高效部署手機(jī)。

      在圖像編碼方面,面壁首次整合NPU和CPU加速框架,在MiniCPM-Llama3-V 2.5圖像編碼方面實(shí)現(xiàn)了150倍加速提升。

      在語(yǔ)言模型推理方面,目前開(kāi)源社區(qū)的報(bào)告結(jié)果顯示,Llama 3語(yǔ)言模型在手機(jī)端側(cè)的解碼速度在0.5 token/s上下,相比之下,多模態(tài)大模型的端側(cè)運(yùn)行面臨著更大的效率挑戰(zhàn),經(jīng)過(guò)CPU、編譯優(yōu)化、顯存管理等優(yōu)化方式,面壁將 MiniCPM-Llama3-V 2.5在手機(jī)端的語(yǔ)言解碼速度提升到3-4 token/s。

      目前,語(yǔ)言模型的圖像編碼加速也在進(jìn)行中,更靈敏互動(dòng)體驗(yàn)即將到來(lái)。

      (此處GIF為2倍速演示,面壁正進(jìn)一步加速優(yōu)化中)

      (此處GIF為2倍速演示,面壁正進(jìn)一步加速優(yōu)化中)

      有別于常見(jiàn)的中英雙語(yǔ)模型,MiniCPM-Llama3-V2.5可支持30+多種語(yǔ)言,

      包括德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、俄語(yǔ)等主流語(yǔ)言,基本覆蓋一帶一路國(guó)家。

      基于自研的跨語(yǔ)言泛化技術(shù),僅通過(guò)少量翻譯的多模態(tài)數(shù)據(jù)的指令微調(diào),就可對(duì)多語(yǔ)言多模態(tài)對(duì)話性能高效泛化。

      現(xiàn)在,上百個(gè)國(guó)家的幾十億人口,終于可以自如使用母語(yǔ)和端側(cè)大模型交流,不再游離于前沿科技發(fā)展的主線,也因此享有更多AI應(yīng)用落地、生活品質(zhì)提升與參與科技角逐的可能性。真正讓更多人享受大模型的樂(lè)趣!

      多語(yǔ)言案例展示(語(yǔ)言加速工作正在進(jìn)行,此處為2倍速)

      多語(yǔ)言版本LLaVABench評(píng)測(cè)結(jié)果,MiniCPM-Llama3-V 2.5對(duì)話能力更勝一籌

      9倍像素更清晰

      難圖長(zhǎng)圖長(zhǎng)文本精準(zhǔn)識(shí)別

      OCR技術(shù)進(jìn)一步打磨,復(fù)雜推理與多模態(tài)識(shí)別能力再進(jìn)化,MiniCPM-Llama3-V 2.5對(duì)于難圖、長(zhǎng)圖、長(zhǎng)文本的精準(zhǔn)識(shí)別,再度帶來(lái)出眾表現(xiàn)!

      面壁自研高清圖像高效編碼技術(shù),可以高效編碼及無(wú)損識(shí)別180萬(wàn)高清像素圖片,并且支持任意長(zhǎng)寬比、甚至「有點(diǎn)變態(tài)」的1:9極限比例圖像,突破了傳統(tǒng)技術(shù)僅能識(shí)別20萬(wàn)像素小圖的瓶頸。

      此前,MiniCPM-V系列多模態(tài)模型就因?qū)τ诮志、長(zhǎng)圖等困難場(chǎng)景的高效解析,贏得了良好口碑。

      技術(shù)升級(jí),MiniCPM-Llama3-V 2.5在復(fù)雜推理能力上進(jìn)一步突破。可更好地深入洞察圖像,在更復(fù)雜、更接近人類(lèi)的水平上進(jìn)行思考和解決問(wèn)題,堪稱(chēng)大模型中的「小福爾摩斯」。

      復(fù)雜推理能力使得模型不僅能理解單的文本或圖像等模態(tài)信息,還能跨越不同模態(tài)間的綜合信息,做出更準(zhǔn)確和深入的分析。

      比如給定一張充滿(mǎn)繁密字跡的建筑風(fēng)景圖,難以人眼辨別,但MiniCPM-Llama3-V 2.5能夠一眼看懂其中的《三體》主題,還能正確推理出這些建筑是為了紀(jì)念《三體》及其對(duì)中國(guó)科幻文學(xué)的貢獻(xiàn)而設(shè)計(jì),令人會(huì)心一笑。

      把同樣的問(wèn)題拋給GPT-4V,結(jié)果并不理想。

      另外,識(shí)別包含復(fù)雜邏輯的流程圖是多模態(tài)模型推理能力的直觀體現(xiàn),MiniCPM-Llama3-V 2.5不僅能夠輕松看懂流程圖中不同模塊的文字、箭頭之間的空間位置和復(fù)雜邏輯關(guān)系,還能給出清晰易懂的解釋說(shuō)明。

      給媽媽轉(zhuǎn)發(fā)一張亞洲飲食金字塔圖,但她讀不懂英文?

      MiniCPM-Llama3-V 2.5憑借出色的推理能力,不僅深入理解分析圖像里的飲食類(lèi)型和分布,還能洞察背后的營(yíng)養(yǎng)均衡需求,進(jìn)行智能化搭配組合,直接一次性用中文推薦出滿(mǎn)滿(mǎn)一周的三餐食譜。

      全文OCR能力方面,結(jié)構(gòu)化信息提取能力的提升,對(duì)于長(zhǎng)圖長(zhǎng)文本的精準(zhǔn)識(shí)別大有幫助。

      例如輸入一張包含稠密信息的長(zhǎng)文長(zhǎng)圖,MiniCPM-Llama3-V 2.5一字不差地識(shí)別出了全文。

      上下滑動(dòng)查看

      再給一張要翻閱好幾屏的圖文復(fù)雜交錯(cuò)的長(zhǎng)圖難圖長(zhǎng)文本,MiniCPM-Llama3-V 2.5 也能精準(zhǔn)給出正確的回答。

      上下滑動(dòng)查看

      再輸入一張手機(jī)拍攝的火車(chē)票,MiniCPM-Llama3-V 2.5 也能準(zhǔn)確提取信息,給出無(wú)誤的「json」格式輸出。

      最后,面壁是開(kāi)源社區(qū)的熱心貢獻(xiàn)者,也是受益者。

      本次MiniCPM-Llama3-V 2.5的飛躍表現(xiàn)依托于面壁團(tuán)隊(duì)對(duì)多模態(tài)技術(shù)的創(chuàng)新打磨,更離不開(kāi)Llama3-8B-Instruct作為基座模型的性能基礎(chǔ)。

      感謝世界優(yōu)秀同行的卓越工作,令我們站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科學(xué)無(wú)垠之處。

      我們也將持續(xù)回報(bào)社區(qū),開(kāi)源更多優(yōu)秀模型、數(shù)據(jù)、infra工具等,將開(kāi)源開(kāi)放的星火播撒世界協(xié)作創(chuàng)新之蒼穹。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。