還能再漲23%!AI寵兒NVIDIA成大摩明年首選AMD FSR 4.0將與RX 9070 XT顯卡同步登場羅永浩細(xì)紅線最新進(jìn)展,暫別AR,迎來AI Jarvis構(gòu)建堅實(shí)數(shù)據(jù)地基,南京打造可信數(shù)據(jù)空間引領(lǐng)數(shù)字城市建設(shè)下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風(fēng)機(jī)品質(zhì)檢測結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機(jī)、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補(bǔ)期間電視迎來換機(jī)潮,最暢銷MiniLED品牌花落誰家?美團(tuán)旗下微信社群團(tuán)購業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備
  • 首頁 > 云計算頻道 > 大模型

    清華開源圖文對話大模型!表情包解讀有一手,奇怪的benchmark增加了

    2023年05月22日 15:03:41   來源:微信公眾號:量子位

      什么,最懂表情包的中文開源大模型出現(xiàn)了??!

      就在最近,來自清華的一個叫VisualGLM-6B的大模型在網(wǎng)上傳開了來,起因是網(wǎng)友們發(fā)現(xiàn),它連表情包似乎都能解讀!

      像這個臘腸犬版蒙娜麗莎,它不僅準(zhǔn)確理解了這是臘腸犬與蒙娜麗莎的“合體照”,還點(diǎn)出了這只是一幅虛構(gòu)作品:

      又像是這個正在出租車后熨衣斗的男子,它也一眼看出了“不對勁”的地方:

      值得一提的是,在此前GPT-4剛發(fā)布時,網(wǎng)友們也同樣將它用來測了測常識理解能力:

      就如同弱智吧問題是大模型語言理解能力的benchmark一樣,表情包簡直就是大模型圖片理解能力的benchmark。

      要是它真能理解網(wǎng)友們奇奇怪怪的表情包,那AI簡直沒有什么不能get到的信息點(diǎn)了啊!

      我們趕緊測試了一波,看看它究竟效果如何。

      gif也能看懂,但解讀太過正經(jīng)

      目前,VisualGLM-6B已經(jīng)推出了網(wǎng)頁端試玩版。

      只需要在Hugging Face的試玩界面上傳圖片,再與它進(jìn)行“對話”,它就能生成理解圖片的結(jié)果:

      先試試初級難度的表情包。

      官方給出了幾個問題示例,例如“描述一下這個場景”、“這是什么東西”、“這張圖片描述了什么”,我們就先嘗試一下這幾個問題。

      輸入一只正在聽歌的小貓,讓VisualGLM-6B描述一下表情包中的場景

      還不錯,VisualGLM-6B準(zhǔn)確get了小貓享受音樂或使用電子設(shè)備這個過程!

      再輸入一個章魚哥表情包,問它“這是什么東西”:

      也沒問題。看起來能拿給爸媽用了(手動狗頭)。

      再試試用吃飯小狗,讓VisualGLM-6B解讀一下這張圖片描述了什么

      看起來初級表情包都沒什么問題,是時候加大力度了。

      上傳一個gif試試?*眼似乎沒有問題:

      但再換一個gif試試就會發(fā)現(xiàn),它似乎只理解了*幀圖像,猜測是不是“主角在試圖抓住或捕捉它”,但實(shí)際上只是在扔鈔票:

      與之前的一些圖片理解AI不同,VisualGLM-6B在解讀時會著重介紹表情包角色中的面部表情,例如“它看起來不舒服或者緊張”:

      BUT!當(dāng)我們再上一點(diǎn)難度,給表情包配上文字之后,它就無法理解表情包的含義了:

      尤其是這種靠配文傳達(dá)表情包精髓的,VisualGLM-6B就會開始展現(xiàn)“瞎解讀”的功底:

      如果圖像拼接太多,它還會出現(xiàn)奇怪的bug,例如把摸魚狗頭人認(rèn)成大鯊魚:

      而且,它在描述表情包的時候整體比較正經(jīng),不會解讀圖像以外的“用意”。

      例如,有網(wǎng)友測試了一下經(jīng)典的“熊貓人顯卡”表情包:

      以及周星馳的經(jīng)典“我全都要”表情包:

      顯然VisualGLM-6B能大致理解圖片的場景,但對于表情包的配文就無法理解了。

      總結(jié)一下,對于包含經(jīng)典作品角色的表情包,或是經(jīng)過文字加工前的“原始”表情包,VisualGLM-6B能說出這個角色的名字,或是描述出其中的場景:

      雖然也可以讓它描述情緒,不過AI看出來的情緒,可能和最終表情包表達(dá)的情緒不太一樣:

      但一旦表情包加上了文字、或是被P進(jìn)了新場景,VisualGLM-6B就會因?yàn)闊o法解讀圖片中文字的意思,而變得“看不懂梗”了。

      #FormatImgID_20#

      有時候還會解讀錯亂,例如狗看成豬

      那么,擁有一部分解讀表情包能力的VisualGLM-6B,究竟是什么來頭?

      多模態(tài)對話VisualGLM-6B,*只需8.7G顯存

      事實(shí)上,VisualGLM-6B并非專門為“表情包解讀”而開發(fā)。

      它是由智譜AI和清華大學(xué)KEG實(shí)驗(yàn)室打造的開源多模態(tài)對話模型,主要用于中文圖像理解,解讀表情包可以說只是它被開發(fā)出來的一個“副業(yè)”。

      它的正經(jīng)用法,一般是醬嬸的:

      提起這個團(tuán)隊(duì),大家更熟悉的可能是ChatGLM-6B大模型。

      后者此前我們有作介紹:

      它是“清華系ChatGPT”的一員,2022年8月發(fā)布,共62億規(guī)模參數(shù),支持中英雙語對話。

      上線4天就突破6k star,目前已經(jīng)近25k。

      據(jù)介紹,VisualGLM-6B正是在ChatGLM-6B的基礎(chǔ)上完成:

      ChatGLM-6B負(fù)責(zé)它的語言模型部分,圖像部分則通過訓(xùn)練BLIP2-Qformer構(gòu)建起視覺模型與語言模型的“橋梁”。

      因此,VisualGLM-6B整體模型共78億參數(shù)

      具體而言,VisualGLM-6B的預(yù)訓(xùn)練在中英文權(quán)重相同的情況下,在30M高質(zhì)量中文圖文對和300M經(jīng)過篩選的英文圖文對上完成(來自CogView數(shù)據(jù)集)。

      這一訓(xùn)練方法可以將視覺信息對齊到ChatGLM的語義空間。

      微調(diào)階段,VisualGLM-6B又在長視覺問答數(shù)據(jù)上訓(xùn)練,以生成符合人類偏好的答案。

      與此同時,VisualGLM-6B由SwissArmyTransformer (簡稱“sat” ) 庫訓(xùn)練,這是一個支持Transformer靈活修改、訓(xùn)練的工具庫,支持Lora、P-tuning等參數(shù)高效微調(diào)方法。

      最終,本項(xiàng)目既提供了HuggingFace接口,也提供了基于sat的接口。

      要說VisualGLM-6B*的特點(diǎn),便是結(jié)合模型量化技術(shù),可以讓大家在消費(fèi)級的顯卡上進(jìn)行本地部署,INT4量化級別下*只需8.7G顯存。

      具體包含三種部署工具:

      一是命令行Demo。執(zhí)行命令:python cli_demo.py

      然后程序便自動下載sat模型,大家就可以在命令行中進(jìn)行交互式的對話了。

      輸入指示并回車即可生成回復(fù),輸入clear可以清空對話歷史,輸入stop終止程序。

      二是基于Gradio的網(wǎng)頁版Demo。

      需要先安裝Gradio:pip install gradio,然后下載并進(jìn)入本倉庫運(yùn)行web_demo.py,最后在瀏覽器中打開系統(tǒng)輸出的地址即可使用。

      三是API部署。需要安裝額外的依賴:pip install fastapi uvicorn,然后運(yùn)行倉庫中的api.py。

      更多細(xì)節(jié)和推理、量化部分的方法就不贅述了,可戳參考鏈接[1]查看官方介紹。

      需要注意的是,如官方所述,VisualGLM-6B正處于V1版本,視覺和語言模型的參數(shù)、計算量都較小,因此會出現(xiàn)相當(dāng)多的已知局限性,像圖像描述事實(shí)性/模型幻覺問題、圖像細(xì)節(jié)信息捕捉不足,以及一些來自語言模型的局限性等等。

      就如下面這張測試,VisualGLM-6B描述得還挺到位的,能看出是阿根廷和世界杯,但別被蒙了:圖上并沒有阿圭羅和迪馬利亞這兩位球星

     

      因此,官方也稱將在后續(xù)繼續(xù)針對以上問題進(jìn)行一一改進(jìn)。

      不過,擁有圖片解讀能力的大模型,也并不只有VisualGLM-6B一個。

      目前來看,表現(xiàn)比較好的“表情包殺手”還是GPT-4,從網(wǎng)友測試來看,它已經(jīng)能根據(jù)表情包中的文字解讀meme:

      開源大模型方面,基于Vicuna-13B開發(fā)的MiniGPT-4也能解讀圖片,同樣只需要一張單卡RTX3090就能搞定:

      不過在這批大模型中,VisualGLM-6B強(qiáng)調(diào)的則是“中文開源”特點(diǎn),換而言之,它在中文描述上可能會比其他大模型更準(zhǔn)確一些。

      你試玩過這些“表情包解讀AI”了嗎?感覺誰更能get人類思想精華?(手動狗頭)

      參考鏈接:[1]https://mp.weixin.qq.com/s/SzS6Gx8ZjtBXXQ7cs8-zLQ[2]https://twitter.com/thukeg/status/1659079789599248386

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。