首頁 > 云計算頻道 > 大模型

清華開源圖文對話大模型！表情包解讀有一手，奇怪的benchmark增加了

2023年05月22日 15:03:41 豐色蕭簫 來源：微信公眾號：量子位

　　什么，最懂表情包的中文開源大模型出現(xiàn)了??!

　　就在最近，來自清華的一個叫VisualGLM-6B的大模型在網(wǎng)上傳開了來，起因是網(wǎng)友們發(fā)現(xiàn)，它連表情包似乎都能解讀!

　　像這個臘腸犬版蒙娜麗莎，它不僅準(zhǔn)確理解了這是臘腸犬與蒙娜麗莎的“合體照”，還點(diǎn)出了這只是一幅虛構(gòu)作品：

　　又像是這個正在出租車后熨衣斗的男子，它也一眼看出了“不對勁”的地方：

　　值得一提的是，在此前GPT-4剛發(fā)布時，網(wǎng)友們也同樣將它用來測了測常識理解能力：

　　就如同弱智吧問題是大模型語言理解能力的benchmark一樣，表情包簡直就是大模型圖片理解能力的benchmark。

　　要是它真能理解網(wǎng)友們奇奇怪怪的表情包，那AI簡直沒有什么不能get到的信息點(diǎn)了啊!

　　我們趕緊測試了一波，看看它究竟效果如何。

　　gif也能看懂，但解讀太過正經(jīng)

　　目前，VisualGLM-6B已經(jīng)推出了網(wǎng)頁端試玩版。

　　只需要在Hugging Face的試玩界面上傳圖片，再與它進(jìn)行“對話”，它就能生成理解圖片的結(jié)果：

　　先試試初級難度的表情包。

　　官方給出了幾個問題示例，例如“描述一下這個場景”、“這是什么東西”、“這張圖片描述了什么”，我們就先嘗試一下這幾個問題。

　　輸入一只正在聽歌的小貓，讓VisualGLM-6B描述一下表情包中的場景：

　　還不錯，VisualGLM-6B準(zhǔn)確get了小貓享受音樂或使用電子設(shè)備這個過程!

　　再輸入一個章魚哥表情包，問它“這是什么東西”：

　　也沒問題。看起來能拿給爸媽用了(手動狗頭)。

　　再試試用吃飯小狗，讓VisualGLM-6B解讀一下這張圖片描述了什么：

　　看起來初級表情包都沒什么問題，是時候加大力度了。

　　上傳一個gif試試?*眼似乎沒有問題：

　　但再換一個gif試試就會發(fā)現(xiàn)，它似乎只理解了*幀圖像，猜測是不是“主角在試圖抓住或捕捉它”，但實(shí)際上只是在扔鈔票：

　　與之前的一些圖片理解AI不同，VisualGLM-6B在解讀時會著重介紹表情包角色中的面部表情，例如“它看起來不舒服或者緊張”：

　　BUT!當(dāng)我們再上一點(diǎn)難度，給表情包配上文字之后，它就無法理解表情包的含義了：

　　尤其是這種靠配文傳達(dá)表情包精髓的，VisualGLM-6B就會開始展現(xiàn)“瞎解讀”的功底：

　　如果圖像拼接太多，它還會出現(xiàn)奇怪的bug，例如把摸魚狗頭人認(rèn)成大鯊魚：

　　而且，它在描述表情包的時候整體比較正經(jīng)，不會解讀圖像以外的“用意”。

　　例如，有網(wǎng)友測試了一下經(jīng)典的“熊貓人顯卡”表情包：

　　以及周星馳的經(jīng)典“我全都要”表情包：

　　顯然VisualGLM-6B能大致理解圖片的場景，但對于表情包的配文就無法理解了。

　　總結(jié)一下，對于包含經(jīng)典作品角色的表情包，或是經(jīng)過文字加工前的“原始”表情包，VisualGLM-6B能說出這個角色的名字，或是描述出其中的場景：

　　雖然也可以讓它描述情緒，不過AI看出來的情緒，可能和最終表情包表達(dá)的情緒不太一樣：

　　但一旦表情包加上了文字、或是被P進(jìn)了新場景，VisualGLM-6B就會因?yàn)闊o法解讀圖片中文字的意思，而變得“看不懂梗”了。

　　#FormatImgID_20#

　　△有時候還會解讀錯亂，例如狗看成豬

　　那么，擁有一部分解讀表情包能力的VisualGLM-6B，究竟是什么來頭?

　　多模態(tài)對話VisualGLM-6B，*只需8.7G顯存

　　事實(shí)上，VisualGLM-6B并非專門為“表情包解讀”而開發(fā)。

　　它是由智譜AI和清華大學(xué)KEG實(shí)驗(yàn)室打造的開源多模態(tài)對話模型，主要用于中文圖像理解，解讀表情包可以說只是它被開發(fā)出來的一個“副業(yè)”。

　　它的正經(jīng)用法，一般是醬嬸的：

　　提起這個團(tuán)隊(duì)，大家更熟悉的可能是ChatGLM-6B大模型。

　　后者此前我們有作介紹：

　　它是“清華系ChatGPT”的一員，2022年8月發(fā)布，共62億規(guī)模參數(shù)，支持中英雙語對話。

　　上線4天就突破6k star，目前已經(jīng)近25k。

　　據(jù)介紹，VisualGLM-6B正是在ChatGLM-6B的基礎(chǔ)上完成：

　　ChatGLM-6B負(fù)責(zé)它的語言模型部分，圖像部分則通過訓(xùn)練BLIP2-Qformer構(gòu)建起視覺模型與語言模型的“橋梁”。

　　因此，VisualGLM-6B整體模型共78億參數(shù)。

　　具體而言，VisualGLM-6B的預(yù)訓(xùn)練在中英文權(quán)重相同的情況下，在30M高質(zhì)量中文圖文對和300M經(jīng)過篩選的英文圖文對上完成(來自CogView數(shù)據(jù)集)。

　　這一訓(xùn)練方法可以將視覺信息對齊到ChatGLM的語義空間。

　　微調(diào)階段，VisualGLM-6B又在長視覺問答數(shù)據(jù)上訓(xùn)練，以生成符合人類偏好的答案。

　　與此同時，VisualGLM-6B由SwissArmyTransformer (簡稱“sat” ) 庫訓(xùn)練，這是一個支持Transformer靈活修改、訓(xùn)練的工具庫，支持Lora、P-tuning等參數(shù)高效微調(diào)方法。

　　最終，本項(xiàng)目既提供了HuggingFace接口，也提供了基于sat的接口。

　　要說VisualGLM-6B*的特點(diǎn)，便是結(jié)合模型量化技術(shù)，可以讓大家在消費(fèi)級的顯卡上進(jìn)行本地部署，INT4量化級別下*只需8.7G顯存。

　　具體包含三種部署工具：

　　一是命令行Demo。執(zhí)行命令：python cli_demo.py

　　然后程序便自動下載sat模型，大家就可以在命令行中進(jìn)行交互式的對話了。

　　輸入指示并回車即可生成回復(fù)，輸入clear可以清空對話歷史，輸入stop終止程序。

　　二是基于Gradio的網(wǎng)頁版Demo。

　　需要先安裝Gradio：pip install gradio，然后下載并進(jìn)入本倉庫運(yùn)行web_demo.py，最后在瀏覽器中打開系統(tǒng)輸出的地址即可使用。

　　三是API部署。需要安裝額外的依賴：pip install fastapi uvicorn，然后運(yùn)行倉庫中的api.py。

　　更多細(xì)節(jié)和推理、量化部分的方法就不贅述了，可戳參考鏈接[1]查看官方介紹。

　　需要注意的是，如官方所述，VisualGLM-6B正處于V1版本，視覺和語言模型的參數(shù)、計算量都較小，因此會出現(xiàn)相當(dāng)多的已知局限性，像圖像描述事實(shí)性/模型幻覺問題、圖像細(xì)節(jié)信息捕捉不足，以及一些來自語言模型的局限性等等。

　　就如下面這張測試，VisualGLM-6B描述得還挺到位的，能看出是阿根廷和世界杯，但別被蒙了：圖上并沒有阿圭羅和迪馬利亞這兩位球星

。

　　因此，官方也稱將在后續(xù)繼續(xù)針對以上問題進(jìn)行一一改進(jìn)。

　　不過，擁有圖片解讀能力的大模型，也并不只有VisualGLM-6B一個。

　　目前來看，表現(xiàn)比較好的“表情包殺手”還是GPT-4，從網(wǎng)友測試來看，它已經(jīng)能根據(jù)表情包中的文字解讀meme：

　　開源大模型方面，基于Vicuna-13B開發(fā)的MiniGPT-4也能解讀圖片，同樣只需要一張單卡RTX3090就能搞定：

　　不過在這批大模型中，VisualGLM-6B強(qiáng)調(diào)的則是“中文開源”特點(diǎn)，換而言之，它在中文描述上可能會比其他大模型更準(zhǔn)確一些。

　　你試玩過這些“表情包解讀AI”了嗎?感覺誰更能get人類思想精華?(手動狗頭)

　　參考鏈接：[1]https://mp.weixin.qq.com/s/SzS6Gx8ZjtBXXQ7cs8-zLQ[2]https://twitter.com/thukeg/status/1659079789599248386

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

清華開源圖文對話大模型！表情包解讀有一手，奇怪的benchmark增加了

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

清華開源圖文對話大模型！表情包解讀有一手，奇怪的benchmark增加了

擴(kuò)展閱讀

清華開源圖文對話大模型！表情包解讀有一手，奇怪的benchmark增加了