首頁 > 云計(jì)算頻道 > 大模型

谷歌發(fā)布開源視覺語言模型PaliGemma 支持多視覺語言任務(wù)

2024年05月17日 11:55:09 來源：站長之家

　　谷歌推出了一款名為PaliGemma的開源視覺語言模型，該模型結(jié)合了圖像處理和語言理解的能力，旨在支持多種視覺語言任務(wù)，如圖像和短視頻字幕生成、視覺問答、圖像文本理解、物體檢測、文件圖表解讀以及圖像分割等。

　　PaliGemma的關(guān)鍵特點(diǎn):

　　多任務(wù)支持:PaliGemma能夠處理多種視覺語言相關(guān)的任務(wù)，提供廣泛的應(yīng)用場景。

　　參數(shù)規(guī)模:該模型包含30億(3B)個(gè)參數(shù)，是一個(gè)大型的多模態(tài)模型。

　　模型架構(gòu):PaliGemma結(jié)合了SigLiP視覺編碼器和Gemma語言模型，分別負(fù)責(zé)處理圖像和文本輸入。

　　SigLiP視覺編碼器:

　　負(fù)責(zé)處理圖像輸入，將視覺信息編碼為模型能夠理解的格式。

　　Gemma語言模型:

　　負(fù)責(zé)處理文本輸入，并生成輸出，將圖像內(nèi)容與語言任務(wù)結(jié)合起來。

　　PaliGemma的發(fā)布是谷歌在AI領(lǐng)域的又一項(xiàng)重要貢獻(xiàn)，它不僅推動(dòng)了視覺語言理解技術(shù)的發(fā)展，也為研究人員和開發(fā)者提供了強(qiáng)大的工具，以探索和創(chuàng)造新的應(yīng)用。開源的特性意味著PaliGemma可以被社區(qū)廣泛地使用、改進(jìn)和集成到各種產(chǎn)品和服務(wù)中。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信