繼去年發(fā)布并開源VisualGLM-6B和CogVLM之后,智譜AI宣布近期將推出新一代多模態(tài)大模型CogVLM2。這款模型以其19B的參數(shù)量,在性能上接近或超越了GPT-4V。
據(jù)悉,CogVLM2系列模型在多個關(guān)鍵指標(biāo)上實現(xiàn)了顯著提升,如在 OCRbench 基準(zhǔn)上性能提升32%,在TextVQA基準(zhǔn)上性能提升21.9%,且模型具備了較強的文檔圖像理解能力(DocVQA)等。此外,CogVLM2支持8K文本長度和高達1344*1344的圖像分辨率,同時提供中英文雙語的開源模型版本。
CogVLM2 繼承并優(yōu)化了上一代模型的經(jīng)典架構(gòu),采用了一個擁有50億參數(shù)的強大視覺編碼器,并創(chuàng)新性地在大語言模型中整合了一個70億參數(shù)的視覺專家模塊。這一模塊通過獨特的參數(shù)設(shè)置,精細(xì)地建模了視覺與語言序列的交互,確保了在增強視覺理解能力的同時,不會削弱模型在語言處理上的原有優(yōu)勢。這種深度融合的策略,使得視覺模態(tài)與語言模態(tài)能夠更加緊密地結(jié)合。
值得注意的是,盡管CogVLM2的總參數(shù)量為190億,但實際激活的參數(shù)量僅約120億,這得益于精心設(shè)計的多專家模塊結(jié)構(gòu),顯著提高了推理效率。此外,CogVLM2能夠支持高達1344分辨率的圖像輸入,并引入了專門的降采樣模塊,以提高處理高分辨率圖像的效率。
在多模態(tài)基準(zhǔn)測試中,CogVLM2的兩個模型,盡管具有較小的模型尺寸,但在多個基準(zhǔn)中取得 SOTA性能;而在其他性能上,也能達到與閉源模型(例如GPT-4V、Gemini Pro等)接近的水平。
開發(fā)者可以通過GitHub、Huggingface、魔搭社區(qū)和始智社區(qū)下載CogVLM2的模型,團隊還透露,GLM新版本會內(nèi)嵌CogVLM2能力,在智譜清言App和智譜AI大模型MaaS開放平臺上線。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。