挑戰(zhàn)GPT-4V！清華唐杰&智譜開源國產(chǎn)多模態(tài)模型CogVLM-17B

2023年10月10日 14:14:09 來源：站長(zhǎng)之家

　　清華大學(xué)與智譜AI合作開發(fā)的CogVLM-17B是一款國產(chǎn)多模態(tài)模型，具有卓越的性能。該模型不僅可以識(shí)別圖像中的對(duì)象，還能分辨完整可見和部分可見的物體。

　　CogVLM-17B已經(jīng)在10項(xiàng)權(quán)威跨模態(tài)基準(zhǔn)上取得了SOTA(State-of-the-Art)性能，并在多個(gè)領(lǐng)域超越了谷歌的模型。它被形象地稱為“14邊形戰(zhàn)士”，展現(xiàn)了其多模態(tài)處理的出色能力。

　　試玩地址:

　　https://36.103.203.44:7861

　　開源及論文地址:

　　https://github.com/THUDM/CogVLM

　　CogVLM-17B采用了獨(dú)特的深度融合方法，通過四個(gè)關(guān)鍵組件實(shí)現(xiàn)了圖像特征和文本特征的深度對(duì)齊。這些組件包括ViT編碼器、MLP適配器、大型預(yù)訓(xùn)練語言模型以及視覺專家模塊。與傳統(tǒng)的淺層對(duì)齊方法相比，CogVLM-17B的深度融合方法提高了性能，同時(shí)避免了微調(diào)語言模型的全部參數(shù)可能損害NLP任務(wù)性能的問題。

　　CogVLM-17B在視覺問題解決方面表現(xiàn)出色，包括識(shí)別復(fù)雜場(chǎng)景中的對(duì)象、回答關(guān)于圖像內(nèi)容的問題、解決帶圖的編程題等。

　　此外，它還展示了出色的文字識(shí)別能力，盡管沒有專門的OCR數(shù)據(jù)進(jìn)行訓(xùn)練。CogVLM-17B已經(jīng)開源，并提供了在線試玩，雖然目前僅支持英文，但計(jì)劃在未來提供中英雙語版本。

　　這款國產(chǎn)多模態(tài)模型的出現(xiàn)，不僅豐富了多模態(tài)領(lǐng)域的技術(shù)研究，還為各種視覺問題的解決提供了強(qiáng)大的工具。其深度融合方法的創(chuàng)新性標(biāo)志著多模態(tài)模型訓(xùn)練范式的改變，為未來的研究和應(yīng)用提供了新的思路和可能性。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信