國(guó)產(chǎn)「小鋼炮」一夜干翻巨無(wú)霸GPT-4V、Gemini Pro！穩(wěn)坐端側(cè)多模態(tài)鐵王座

2024年05月21日 09:13:13 來(lái)源：新智元公眾號(hào)

　　殺瘋了!一夜之間，全球最強(qiáng)端側(cè)多模態(tài)模型再次刷新，僅用8B參數(shù)，擊敗了多模態(tài)巨無(wú)霸Gemini Pro、GPT-4V。而且，其OCR長(zhǎng)難圖識(shí)別刷新SOTA，圖像編碼速度暴漲150倍。這是國(guó)產(chǎn)頭部大模型公司獻(xiàn)給開(kāi)發(fā)者們最浪漫的520禮物。

　　拳打GPT-4V，腳踢Gemini Pro，僅僅8B參數(shù)就能擊敗多模態(tài)大模型王者。

　　今天，這個(gè)全球最強(qiáng)端側(cè)多模態(tài)模型徹底「殺瘋了」!

　　眾所周知，端側(cè)模型是AI發(fā)展的大趨勢(shì)——從微軟、谷歌再到蘋(píng)果和英特爾，全球科技巨頭都在爭(zhēng)搶在PC和手機(jī)等端側(cè)場(chǎng)景的AI落地。

　　但萬(wàn)萬(wàn)沒(méi)想到的是，端側(cè)模型的性能竟然可以這么猛，進(jìn)化速度竟然可以這么快!

　　更令人驚喜的是，它不是來(lái)自國(guó)外大廠，而是出自國(guó)內(nèi)大模型研發(fā)實(shí)力最頭部的公司面壁智能——他們最新打造了面壁小鋼炮MiniCPM-Llama3-V 2.5。

　　而且，選擇在今天520這個(gè)特殊的日子推出，據(jù)說(shuō)是送給開(kāi)源社區(qū)的情人節(jié)禮物，簡(jiǎn)直浪漫的不像個(gè)科技公司~

　　MiniCPM-Llama3-V 2.5開(kāi)源地址：

　　https://github.com/OpenBMB/MiniCPM-V

　　MiniCPM系列開(kāi)源地址：

　　https://github.com/OpenBMB/MiniCPM

　　Hugging Face下載地址：

　　https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

　　那么這個(gè)小鋼炮究竟有多強(qiáng)?何以能擔(dān)當(dāng)?shù)闷鹑蜃顝?qiáng)端側(cè)多模態(tài)模型的稱(chēng)號(hào)?

　　總結(jié)來(lái)講，MiniCPM-Llama3-V 2.5不僅支持30+多種語(yǔ)言，而且還具備：

　　最強(qiáng)端側(cè)多模態(tài)綜合性能：超越多模態(tài)巨無(wú)霸Gemini Pro、GPT-4V;

　　OCR能力SOTA!9倍像素更清晰，難圖長(zhǎng)圖長(zhǎng)文本精準(zhǔn)識(shí)別;

　　圖像編碼快150倍!首次端側(cè)系統(tǒng)級(jí)多模態(tài)加速。

　　下面這張圖反映了在全球范圍內(nèi)，小參數(shù)、高性能的多模態(tài)大模型已經(jīng)成為趨勢(shì);

　　而其中最亮眼的一顆星正是面壁小鋼炮MiniCPM-Llama3-V 2.5。

　　MiniCPM-Llama3-V 2.5用實(shí)力證明了——模型不是只有「參數(shù)越大才能性能越好」，而是可以用最小參數(shù)撬動(dòng)最強(qiáng)性能!

　　另外隨著大模型參數(shù)愈益降低、端側(cè)算力愈益增強(qiáng)，高性能端側(cè)模型勢(shì)頭強(qiáng)勁。

　　而手機(jī)、PC等智能終端設(shè)備因其高頻的影像視覺(jué)處理需求，對(duì)在端側(cè)部署AI模型提出了更高的多模態(tài)識(shí)別與推理能力要求。

　　從面壁「小鋼炮」三月三級(jí)跳的迅猛進(jìn)化來(lái)看，推動(dòng)推理成本大幅降低、大模型高效落地，勝利在望。

　　OCR能力SOTA+最強(qiáng)端側(cè)多模態(tài)

　　8B端側(cè)模型，超越GPT-4V、Gemini Pro

　　這一次，MiniCPM-Llama3-V 2.5以8B端側(cè)模型參數(shù)量級(jí)，貢獻(xiàn)了驚艷的 OCR(光學(xué)字符識(shí)別)SOTA成績(jī)，以及端側(cè)模型中的最佳多模態(tài)綜合成績(jī)與幻覺(jué)能力水平。

　　模型雷達(dá)圖，MiniCPM-Llama3-V 2.5綜合能力水平全面優(yōu)秀

　　在綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass上，MiniCPM-Llama3-V 2.5以小博大，綜合性能超越多模態(tài)巨無(wú)霸GPT-4V和Gemini Pro。

　　OCR(光學(xué)字符識(shí)別)是多模態(tài)大模型最重要的能力之一，也是考察多模態(tài)識(shí)別與推理能力的硬核指標(biāo)。

　　新一代MiniCPM-Llama3-V 2.5 在OCR綜合能⼒權(quán)威榜單OCRBench上，越級(jí)超越了Claude 3V Opus、Gemini Pro等標(biāo)桿模型，實(shí)現(xiàn)了性能SOTA。

　　在評(píng)估多模態(tài)大模型性能可靠性的重要指標(biāo)——幻覺(jué)能力上，MiniCPM-Llama3-V 2.5在Object HalBench榜單上超越了GPT-4V等眾多模型(注：目標(biāo)幻覺(jué)率應(yīng)為0)。

　　在評(píng)估多模態(tài)模型的基本現(xiàn)實(shí)世界空間理解能力的RealWorldQA榜單上，MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro，這對(duì)8B模型而言難能可貴。

　　快150倍!首次端側(cè)系統(tǒng)級(jí)加速

　　支持30+多語(yǔ)言，擁抱世界開(kāi)源社區(qū)

　　首次進(jìn)行端側(cè)系統(tǒng)級(jí)加速，MiniCPM-Llama3-V 2.5已高效部署手機(jī)。

　　在圖像編碼方面，面壁首次整合NPU和CPU加速框架，在MiniCPM-Llama3-V 2.5圖像編碼方面實(shí)現(xiàn)了150倍加速提升。

　　在語(yǔ)言模型推理方面，目前開(kāi)源社區(qū)的報(bào)告結(jié)果顯示，Llama 3語(yǔ)言模型在手機(jī)端側(cè)的解碼速度在0.5 token/s上下，相比之下，多模態(tài)大模型的端側(cè)運(yùn)行面臨著更大的效率挑戰(zhàn)，經(jīng)過(guò)CPU、編譯優(yōu)化、顯存管理等優(yōu)化方式，面壁將 MiniCPM-Llama3-V 2.5在手機(jī)端的語(yǔ)言解碼速度提升到3-4 token/s。

　　目前，語(yǔ)言模型的圖像編碼加速也在進(jìn)行中，更靈敏互動(dòng)體驗(yàn)即將到來(lái)。

　　(此處GIF為2倍速演示，面壁正進(jìn)一步加速優(yōu)化中)

　　有別于常見(jiàn)的中英雙語(yǔ)模型，MiniCPM-Llama3-V2.5可支持30+多種語(yǔ)言，

　　包括德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、俄語(yǔ)等主流語(yǔ)言，基本覆蓋一帶一路國(guó)家。

　　基于自研的跨語(yǔ)言泛化技術(shù)，僅通過(guò)少量翻譯的多模態(tài)數(shù)據(jù)的指令微調(diào)，就可對(duì)多語(yǔ)言多模態(tài)對(duì)話性能高效泛化。

　　現(xiàn)在，上百個(gè)國(guó)家的幾十億人口，終于可以自如使用母語(yǔ)和端側(cè)大模型交流，不再游離于前沿科技發(fā)展的主線，也因此享有更多AI應(yīng)用落地、生活品質(zhì)提升與參與科技角逐的可能性。真正讓更多人享受大模型的樂(lè)趣!

　　多語(yǔ)言案例展示(語(yǔ)言加速工作正在進(jìn)行，此處為2倍速)

　　多語(yǔ)言版本LLaVABench評(píng)測(cè)結(jié)果，MiniCPM-Llama3-V 2.5對(duì)話能力更勝一籌

　　9倍像素更清晰

　　難圖長(zhǎng)圖長(zhǎng)文本精準(zhǔn)識(shí)別

　　OCR技術(shù)進(jìn)一步打磨，復(fù)雜推理與多模態(tài)識(shí)別能力再進(jìn)化，MiniCPM-Llama3-V 2.5對(duì)于難圖、長(zhǎng)圖、長(zhǎng)文本的精準(zhǔn)識(shí)別，再度帶來(lái)出眾表現(xiàn)!

　　面壁自研高清圖像高效編碼技術(shù)，可以高效編碼及無(wú)損識(shí)別180萬(wàn)高清像素圖片，并且支持任意長(zhǎng)寬比、甚至「有點(diǎn)變態(tài)」的1:9極限比例圖像，突破了傳統(tǒng)技術(shù)僅能識(shí)別20萬(wàn)像素小圖的瓶頸。

　　此前，MiniCPM-V系列多模態(tài)模型就因?qū)τ诮志�、長(zhǎng)圖等困難場(chǎng)景的高效解析，贏得了良好口碑。

　　技術(shù)升級(jí)，MiniCPM-Llama3-V 2.5在復(fù)雜推理能力上進(jìn)一步突破。可更好地深入洞察圖像，在更復(fù)雜、更接近人類(lèi)的水平上進(jìn)行思考和解決問(wèn)題，堪稱(chēng)大模型中的「小福爾摩斯」。

　　復(fù)雜推理能力使得模型不僅能理解單的文本或圖像等模態(tài)信息，還能跨越不同模態(tài)間的綜合信息，做出更準(zhǔn)確和深入的分析。

　　比如給定一張充滿(mǎn)繁密字跡的建筑風(fēng)景圖，難以人眼辨別，但MiniCPM-Llama3-V 2.5能夠一眼看懂其中的《三體》主題，還能正確推理出這些建筑是為了紀(jì)念《三體》及其對(duì)中國(guó)科幻文學(xué)的貢獻(xiàn)而設(shè)計(jì)，令人會(huì)心一笑。

　　把同樣的問(wèn)題拋給GPT-4V，結(jié)果并不理想。

　　另外，識(shí)別包含復(fù)雜邏輯的流程圖是多模態(tài)模型推理能力的直觀體現(xiàn)，MiniCPM-Llama3-V 2.5不僅能夠輕松看懂流程圖中不同模塊的文字、箭頭之間的空間位置和復(fù)雜邏輯關(guān)系，還能給出清晰易懂的解釋說(shuō)明。

　　給媽媽轉(zhuǎn)發(fā)一張亞洲飲食金字塔圖，但她讀不懂英文?

　　MiniCPM-Llama3-V 2.5憑借出色的推理能力，不僅深入理解分析圖像里的飲食類(lèi)型和分布，還能洞察背后的營(yíng)養(yǎng)均衡需求，進(jìn)行智能化搭配組合，直接一次性用中文推薦出滿(mǎn)滿(mǎn)一周的三餐食譜。

　　全文OCR能力方面，結(jié)構(gòu)化信息提取能力的提升，對(duì)于長(zhǎng)圖長(zhǎng)文本的精準(zhǔn)識(shí)別大有幫助。

　　例如輸入一張包含稠密信息的長(zhǎng)文長(zhǎng)圖，MiniCPM-Llama3-V 2.5一字不差地識(shí)別出了全文。

　　上下滑動(dòng)查看

　　再給一張要翻閱好幾屏的圖文復(fù)雜交錯(cuò)的長(zhǎng)圖難圖長(zhǎng)文本，MiniCPM-Llama3-V 2.5 也能精準(zhǔn)給出正確的回答。

　　上下滑動(dòng)查看

　　再輸入一張手機(jī)拍攝的火車(chē)票，MiniCPM-Llama3-V 2.5 也能準(zhǔn)確提取信息，給出無(wú)誤的「json」格式輸出。

　　最后，面壁是開(kāi)源社區(qū)的熱心貢獻(xiàn)者，也是受益者。

　　本次MiniCPM-Llama3-V 2.5的飛躍表現(xiàn)依托于面壁團(tuán)隊(duì)對(duì)多模態(tài)技術(shù)的創(chuàng)新打磨，更離不開(kāi)Llama3-8B-Instruct作為基座模型的性能基礎(chǔ)。

　　感謝世界優(yōu)秀同行的卓越工作，令我們站在彼此的肩膀上，伸手摘星，指向更高、更璀璨的科學(xué)無(wú)垠之處。

　　我們也將持續(xù)回報(bào)社區(qū)，開(kāi)源更多優(yōu)秀模型、數(shù)據(jù)、infra工具等，將開(kāi)源開(kāi)放的星火播撒世界協(xié)作創(chuàng)新之蒼穹。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng)，展示全球科技創(chuàng)新力量

近日，德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng)，有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

服貿(mào)會(huì)高通展示開(kāi)放創(chuàng)新生態(tài)，以5G、AI等技術(shù)促進(jìn)合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來(lái)三季再續(xù)輝煌

新聞

敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

近日，中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無(wú)人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來(lái)都要半個(gè)月了，現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

2024年3月12日，由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

研究

2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”，將于2024年3月23日至24日舉辦。

專(zhuān)題

2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)

返回主頁(yè) ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁(yè)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

國(guó)產(chǎn)「小鋼炮」一夜干翻巨無(wú)霸GPT-4V、Gemini Pro！穩(wěn)坐端側(cè)多模態(tài)鐵王座

擴(kuò)展閱讀

國(guó)產(chǎn)「小鋼炮」一夜干翻巨無(wú)霸GPT-4V、Gemini Pro！穩(wěn)坐端側(cè)多模態(tài)鐵王座