超越GPT-4V！智譜AI第二代視覺大模型CogVLM2，19B參數(shù)跑出卓越性能

2024年05月23日 09:29:10 來源：中文科技資訊

　　繼去年發(fā)布并開源VisualGLM-6B和CogVLM之后，智譜AI宣布近期將推出新一代多模態(tài)大模型CogVLM2。這款模型以其19B的參數(shù)量，在性能上接近或超越了GPT-4V。

　　據(jù)悉，CogVLM2系列模型在多個關(guān)鍵指標(biāo)上實現(xiàn)了顯著提升，如在 OCRbench 基準(zhǔn)上性能提升32%，在TextVQA基準(zhǔn)上性能提升21.9%，且模型具備了較強的文檔圖像理解能力(DocVQA)等。此外，CogVLM2支持8K文本長度和高達1344*1344的圖像分辨率，同時提供中英文雙語的開源模型版本。

　　CogVLM2 繼承并優(yōu)化了上一代模型的經(jīng)典架構(gòu)，采用了一個擁有50億參數(shù)的強大視覺編碼器，并創(chuàng)新性地在大語言模型中整合了一個70億參數(shù)的視覺專家模塊。這一模塊通過獨特的參數(shù)設(shè)置，精細(xì)地建模了視覺與語言序列的交互，確保了在增強視覺理解能力的同時，不會削弱模型在語言處理上的原有優(yōu)勢。這種深度融合的策略，使得視覺模態(tài)與語言模態(tài)能夠更加緊密地結(jié)合。

　　值得注意的是，盡管CogVLM2的總參數(shù)量為190億，但實際激活的參數(shù)量僅約120億，這得益于精心設(shè)計的多專家模塊結(jié)構(gòu)，顯著提高了推理效率。此外，CogVLM2能夠支持高達1344分辨率的圖像輸入，并引入了專門的降采樣模塊，以提高處理高分辨率圖像的效率。

　　在多模態(tài)基準(zhǔn)測試中，CogVLM2的兩個模型，盡管具有較小的模型尺寸，但在多個基準(zhǔn)中取得 SOTA性能;而在其他性能上，也能達到與閉源模型(例如GPT-4V、Gemini Pro等)接近的水平。

　　開發(fā)者可以通過GitHub、Huggingface、魔搭社區(qū)和始智社區(qū)下載CogVLM2的模型，團隊還透露，GLM新版本會內(nèi)嵌CogVLM2能力，在智譜清言App和智譜AI大模型MaaS開放平臺上線。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. S026]
分享到微信

即時

TCL實業(yè)榮獲IFA2024多項大獎，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎，有力證明了其在全球市場的強大影響力。

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

華為見非凡品牌盛典及鴻蒙智行新品發(fā)布會定檔 9月10日

新聞

敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

近日，中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

3C消費

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

超越GPT-4V！智譜AI第二代視覺大模型CogVLM2，19B參數(shù)跑出卓越性能

擴展閱讀

超越GPT-4V！智譜AI第二代視覺大模型CogVLM2，19B參數(shù)跑出卓越性能