殺瘋了!一夜之間,全球最強(qiáng)端側(cè)多模態(tài)模型再次刷新,僅用8B參數(shù),擊敗了多模態(tài)巨無(wú)霸Gemini Pro、GPT-4V。而且,其OCR長(zhǎng)難圖識(shí)別刷新SOTA,圖像編碼速度暴漲150倍。這是國(guó)產(chǎn)頭部大模型公司獻(xiàn)給開(kāi)發(fā)者們最浪漫的520禮物。
拳打GPT-4V,腳踢Gemini Pro,僅僅8B參數(shù)就能擊敗多模態(tài)大模型王者。
今天,這個(gè)全球最強(qiáng)端側(cè)多模態(tài)模型徹底「殺瘋了」!
眾所周知,端側(cè)模型是AI發(fā)展的大趨勢(shì)——從微軟、谷歌再到蘋(píng)果和英特爾,全球科技巨頭都在爭(zhēng)搶在PC和手機(jī)等端側(cè)場(chǎng)景的AI落地。
但萬(wàn)萬(wàn)沒(méi)想到的是,端側(cè)模型的性能竟然可以這么猛,進(jìn)化速度竟然可以這么快!
更令人驚喜的是,它不是來(lái)自國(guó)外大廠,而是出自國(guó)內(nèi)大模型研發(fā)實(shí)力最頭部的公司面壁智能——他們最新打造了面壁小鋼炮MiniCPM-Llama3-V 2.5。
而且,選擇在今天520這個(gè)特殊的日子推出,據(jù)說(shuō)是送給開(kāi)源社區(qū)的情人節(jié)禮物,簡(jiǎn)直浪漫的不像個(gè)科技公司~
MiniCPM-Llama3-V 2.5開(kāi)源地址:
https://github.com/OpenBMB/MiniCPM-V
MiniCPM系列開(kāi)源地址:
https://github.com/OpenBMB/MiniCPM
Hugging Face下載地址:
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
那么這個(gè)小鋼炮究竟有多強(qiáng)?何以能擔(dān)當(dāng)?shù)闷鹑蜃顝?qiáng)端側(cè)多模態(tài)模型的稱(chēng)號(hào)?
總結(jié)來(lái)講,MiniCPM-Llama3-V 2.5不僅支持30+多種語(yǔ)言,而且還具備:
最強(qiáng)端側(cè)多模態(tài)綜合性能:超越多模態(tài)巨無(wú)霸Gemini Pro、GPT-4V;
OCR能力SOTA!9倍像素更清晰,難圖長(zhǎng)圖長(zhǎng)文本精準(zhǔn)識(shí)別;
圖像編碼快150倍!首次端側(cè)系統(tǒng)級(jí)多模態(tài)加速。
下面這張圖反映了在全球范圍內(nèi),小參數(shù)、高性能的多模態(tài)大模型已經(jīng)成為趨勢(shì);
而其中最亮眼的一顆星正是面壁小鋼炮MiniCPM-Llama3-V 2.5。
MiniCPM-Llama3-V 2.5用實(shí)力證明了——模型不是只有「參數(shù)越大才能性能越好」,而是可以用最小參數(shù)撬動(dòng)最強(qiáng)性能!
另外隨著大模型參數(shù)愈益降低、端側(cè)算力愈益增強(qiáng),高性能端側(cè)模型勢(shì)頭強(qiáng)勁。
而手機(jī)、PC等智能終端設(shè)備因其高頻的影像視覺(jué)處理需求,對(duì)在端側(cè)部署AI模型提出了更高的多模態(tài)識(shí)別與推理能力要求。
從面壁「小鋼炮」三月三級(jí)跳的迅猛進(jìn)化來(lái)看,推動(dòng)推理成本大幅降低、大模型高效落地,勝利在望。
OCR能力SOTA+最強(qiáng)端側(cè)多模態(tài)
8B端側(cè)模型,超越GPT-4V、Gemini Pro
這一次,MiniCPM-Llama3-V 2.5以8B端側(cè)模型參數(shù)量級(jí),貢獻(xiàn)了驚艷的 OCR(光學(xué)字符識(shí)別)SOTA成績(jī),以及端側(cè)模型中的最佳多模態(tài)綜合成績(jī)與幻覺(jué)能力水平。
模型雷達(dá)圖,MiniCPM-Llama3-V 2.5綜合能力水平全面優(yōu)秀
在綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass上,MiniCPM-Llama3-V 2.5以小博大,綜合性能超越多模態(tài)巨無(wú)霸GPT-4V和Gemini Pro。
OCR(光學(xué)字符識(shí)別)是多模態(tài)大模型最重要的能力之一,也是考察多模態(tài)識(shí)別與推理能力的硬核指標(biāo)。
新一代MiniCPM-Llama3-V 2.5 在OCR綜合能⼒權(quán)威榜單OCRBench上,越級(jí)超越了Claude 3V Opus、Gemini Pro等標(biāo)桿模型,實(shí)現(xiàn)了性能SOTA。
在評(píng)估多模態(tài)大模型性能可靠性的重要指標(biāo)——幻覺(jué)能力上,MiniCPM-Llama3-V 2.5在Object HalBench榜單上超越了GPT-4V等眾多模型(注:目標(biāo)幻覺(jué)率應(yīng)為0)。
在評(píng)估多模態(tài)模型的基本現(xiàn)實(shí)世界空間理解能力的RealWorldQA榜單上,MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro,這對(duì)8B模型而言難能可貴。
快150倍!首次端側(cè)系統(tǒng)級(jí)加速
支持30+多語(yǔ)言,擁抱世界開(kāi)源社區(qū)
首次進(jìn)行端側(cè)系統(tǒng)級(jí)加速,MiniCPM-Llama3-V 2.5已高效部署手機(jī)。
在圖像編碼方面,面壁首次整合NPU和CPU加速框架,在MiniCPM-Llama3-V 2.5圖像編碼方面實(shí)現(xiàn)了150倍加速提升。
在語(yǔ)言模型推理方面,目前開(kāi)源社區(qū)的報(bào)告結(jié)果顯示,Llama 3語(yǔ)言模型在手機(jī)端側(cè)的解碼速度在0.5 token/s上下,相比之下,多模態(tài)大模型的端側(cè)運(yùn)行面臨著更大的效率挑戰(zhàn),經(jīng)過(guò)CPU、編譯優(yōu)化、顯存管理等優(yōu)化方式,面壁將 MiniCPM-Llama3-V 2.5在手機(jī)端的語(yǔ)言解碼速度提升到3-4 token/s。
目前,語(yǔ)言模型的圖像編碼加速也在進(jìn)行中,更靈敏互動(dòng)體驗(yàn)即將到來(lái)。
(此處GIF為2倍速演示,面壁正進(jìn)一步加速優(yōu)化中)
(此處GIF為2倍速演示,面壁正進(jìn)一步加速優(yōu)化中)
有別于常見(jiàn)的中英雙語(yǔ)模型,MiniCPM-Llama3-V2.5可支持30+多種語(yǔ)言,
包括德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、俄語(yǔ)等主流語(yǔ)言,基本覆蓋一帶一路國(guó)家。
基于自研的跨語(yǔ)言泛化技術(shù),僅通過(guò)少量翻譯的多模態(tài)數(shù)據(jù)的指令微調(diào),就可對(duì)多語(yǔ)言多模態(tài)對(duì)話性能高效泛化。
現(xiàn)在,上百個(gè)國(guó)家的幾十億人口,終于可以自如使用母語(yǔ)和端側(cè)大模型交流,不再游離于前沿科技發(fā)展的主線,也因此享有更多AI應(yīng)用落地、生活品質(zhì)提升與參與科技角逐的可能性。真正讓更多人享受大模型的樂(lè)趣!
多語(yǔ)言案例展示(語(yǔ)言加速工作正在進(jìn)行,此處為2倍速)
多語(yǔ)言版本LLaVABench評(píng)測(cè)結(jié)果,MiniCPM-Llama3-V 2.5對(duì)話能力更勝一籌
9倍像素更清晰
難圖長(zhǎng)圖長(zhǎng)文本精準(zhǔn)識(shí)別
OCR技術(shù)進(jìn)一步打磨,復(fù)雜推理與多模態(tài)識(shí)別能力再進(jìn)化,MiniCPM-Llama3-V 2.5對(duì)于難圖、長(zhǎng)圖、長(zhǎng)文本的精準(zhǔn)識(shí)別,再度帶來(lái)出眾表現(xiàn)!
面壁自研高清圖像高效編碼技術(shù),可以高效編碼及無(wú)損識(shí)別180萬(wàn)高清像素圖片,并且支持任意長(zhǎng)寬比、甚至「有點(diǎn)變態(tài)」的1:9極限比例圖像,突破了傳統(tǒng)技術(shù)僅能識(shí)別20萬(wàn)像素小圖的瓶頸。
此前,MiniCPM-V系列多模態(tài)模型就因?qū)τ诮志、長(zhǎng)圖等困難場(chǎng)景的高效解析,贏得了良好口碑。
技術(shù)升級(jí),MiniCPM-Llama3-V 2.5在復(fù)雜推理能力上進(jìn)一步突破。可更好地深入洞察圖像,在更復(fù)雜、更接近人類(lèi)的水平上進(jìn)行思考和解決問(wèn)題,堪稱(chēng)大模型中的「小福爾摩斯」。
復(fù)雜推理能力使得模型不僅能理解單的文本或圖像等模態(tài)信息,還能跨越不同模態(tài)間的綜合信息,做出更準(zhǔn)確和深入的分析。
比如給定一張充滿(mǎn)繁密字跡的建筑風(fēng)景圖,難以人眼辨別,但MiniCPM-Llama3-V 2.5能夠一眼看懂其中的《三體》主題,還能正確推理出這些建筑是為了紀(jì)念《三體》及其對(duì)中國(guó)科幻文學(xué)的貢獻(xiàn)而設(shè)計(jì),令人會(huì)心一笑。
把同樣的問(wèn)題拋給GPT-4V,結(jié)果并不理想。
另外,識(shí)別包含復(fù)雜邏輯的流程圖是多模態(tài)模型推理能力的直觀體現(xiàn),MiniCPM-Llama3-V 2.5不僅能夠輕松看懂流程圖中不同模塊的文字、箭頭之間的空間位置和復(fù)雜邏輯關(guān)系,還能給出清晰易懂的解釋說(shuō)明。
給媽媽轉(zhuǎn)發(fā)一張亞洲飲食金字塔圖,但她讀不懂英文?
MiniCPM-Llama3-V 2.5憑借出色的推理能力,不僅深入理解分析圖像里的飲食類(lèi)型和分布,還能洞察背后的營(yíng)養(yǎng)均衡需求,進(jìn)行智能化搭配組合,直接一次性用中文推薦出滿(mǎn)滿(mǎn)一周的三餐食譜。
全文OCR能力方面,結(jié)構(gòu)化信息提取能力的提升,對(duì)于長(zhǎng)圖長(zhǎng)文本的精準(zhǔn)識(shí)別大有幫助。
例如輸入一張包含稠密信息的長(zhǎng)文長(zhǎng)圖,MiniCPM-Llama3-V 2.5一字不差地識(shí)別出了全文。
上下滑動(dòng)查看
再給一張要翻閱好幾屏的圖文復(fù)雜交錯(cuò)的長(zhǎng)圖難圖長(zhǎng)文本,MiniCPM-Llama3-V 2.5 也能精準(zhǔn)給出正確的回答。
上下滑動(dòng)查看
再輸入一張手機(jī)拍攝的火車(chē)票,MiniCPM-Llama3-V 2.5 也能準(zhǔn)確提取信息,給出無(wú)誤的「json」格式輸出。
最后,面壁是開(kāi)源社區(qū)的熱心貢獻(xiàn)者,也是受益者。
本次MiniCPM-Llama3-V 2.5的飛躍表現(xiàn)依托于面壁團(tuán)隊(duì)對(duì)多模態(tài)技術(shù)的創(chuàng)新打磨,更離不開(kāi)Llama3-8B-Instruct作為基座模型的性能基礎(chǔ)。
感謝世界優(yōu)秀同行的卓越工作,令我們站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科學(xué)無(wú)垠之處。
我們也將持續(xù)回報(bào)社區(qū),開(kāi)源更多優(yōu)秀模型、數(shù)據(jù)、infra工具等,將開(kāi)源開(kāi)放的星火播撒世界協(xié)作創(chuàng)新之蒼穹。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。