首頁(yè) > 云計(jì)算頻道 > 大模型

多模態(tài)LLM幻覺(jué)問(wèn)題降低30%！業(yè)內(nèi)首個(gè)“啄木鳥(niǎo)”免重訓(xùn)方法誕生｜中科大

2023年10月30日 09:41:22 豐色來(lái)源：量子位

　　豐色發(fā)自凹非寺

　　量子位 | 公眾號(hào) QbitAI

　　還在用指令微調(diào)解決多模態(tài)大模型的“幻覺(jué)”問(wèn)題嗎?

　　比如下圖中模型將橙色柯基錯(cuò)認(rèn)為“紅狗”，還指出周?chē)€有幾條。

內(nèi)容圖片

　　現(xiàn)在，中科大的一項(xiàng)研究想到了一個(gè)全新辦法：

　　一個(gè)免重訓(xùn)、即插即用的通用架構(gòu)，直接從模型給出的錯(cuò)誤文本下手，“倒推”出可能出現(xiàn)“幻覺(jué)”之處，然后與圖片確定事實(shí)，最終直接完成修正。

　　他們將這個(gè)方法命名為“啄木鳥(niǎo)”(Woodpecker)。

內(nèi)容圖片

　　就像這位所謂的“森林醫(yī)生”先找出樹(shù)木的蟲(chóng)洞再吃掉里面的蟲(chóng)子一樣，本文中所提出的“啄木鳥(niǎo)”也是多模態(tài)大模型們的“幻覺(jué)”醫(yī)生，能夠?qū)?wèn)題先診斷出來(lái)再一一糾正。

　　結(jié)果是“醫(yī)術(shù)確實(shí)高明”，成功將：

　　(1)MiniGPT-4的準(zhǔn)確性從54.67%提高到了85.33%;

　　(2)mPLUG Ow的準(zhǔn)確性從62%提到了86.33%。

　　如下圖所示，各種難以檢測(cè)到的小對(duì)象、復(fù)雜的計(jì)數(shù)場(chǎng)景，它都能沒(méi)問(wèn)題。

內(nèi)容圖片

　　那么，它具體是如何診斷的呢?

　　“啄木鳥(niǎo)法”治療多模態(tài)LLM幻覺(jué)

　　目前，業(yè)內(nèi)對(duì)于大模型幻覺(jué)問(wèn)題的解決辦法基本都是用特定數(shù)據(jù)進(jìn)行指令微調(diào)。

　　比如說(shuō)，一些多模態(tài)大模型(MLLM)在回答問(wèn)題時(shí)總是傾向于肯定答案(eg. 面對(duì)一個(gè)光頭人物圖，問(wèn)它頭發(fā)是什么顏色，張口就說(shuō)“黑”)，那么我們?cè)傥菇o模型一些包含負(fù)樣本的數(shù)據(jù)，就能解決它“無(wú)中生有”的幻覺(jué)，遇到?jīng)]有的就說(shuō)“no”。

　　除了指令微調(diào)，也有的會(huì)進(jìn)行架構(gòu)調(diào)整，反正都要重新訓(xùn)練一個(gè)新的模型。

　　本文提出的“啄木鳥(niǎo)”框架，是業(yè)內(nèi)第一個(gè)無(wú)需此操作就能解決“幻覺(jué)”的全新辦法。

　　它一共分為5個(gè)步驟，每一步都采用了清晰透明的設(shè)計(jì)方式，因此具備良好的可解釋性。

內(nèi)容圖片

　　具體而言：

　　第一步，關(guān)鍵概念提取。

　　指找出模型給出的答案中提到的主要對(duì)象，即最有可能解除“幻覺(jué)”的元素。

　　例如對(duì)于下圖，多模態(tài)大模型最開(kāi)始可能描述圖中有一輛自行車(chē)停在一個(gè)垃圾桶旁邊，還說(shuō)圖上有幾個(gè)人從垃圾桶旁邊走過(guò)。

　　那么，我們就可以得到三個(gè)關(guān)鍵概念：自行車(chē)、垃圾桶和人。

　　第二步，問(wèn)題構(gòu)造。

　　指在獲取關(guān)鍵概念后，圍繞它們提出一些問(wèn)題有助于檢驗(yàn)“幻覺(jué)”所在的問(wèn)題。

　　可主要分為對(duì)象層面和屬性層面，前者可以問(wèn)“圖中有幾輛自行車(chē)?”，后者可問(wèn)“垃圾桶位于什么位置?”。

　　在此，由于屬性問(wèn)題比較依賴于上下文，作者也用了一些帶有上下文的例子來(lái)提示模型，以便提出的問(wèn)題更有意義

　　第三步，視覺(jué)驗(yàn)證。

　　指引用專家模型回答上步提出的所有問(wèn)題，方便后續(xù)校正。

　　對(duì)于對(duì)象層面的問(wèn)題，例如我們利用GroundingDINO來(lái)進(jìn)行目標(biāo)檢測(cè)，確定關(guān)鍵目標(biāo)是否存在以及關(guān)鍵目標(biāo)的數(shù)量。

　　對(duì)于屬性問(wèn)題，則用BLIP-2來(lái)搞定。這類傳統(tǒng)VQA模型輸出答案的長(zhǎng)度有限，"幻覺(jué)"問(wèn)題更少。

　　第四步，視覺(jué)斷言生成。

　　簡(jiǎn)單來(lái)說(shuō)，就是基于于前兩步中獲得的問(wèn)題以及對(duì)應(yīng)的視覺(jué)信息，合成結(jié)構(gòu)化的“視覺(jué)斷言”。

　　格式如下：

內(nèi)容圖片

　　最后，“幻覺(jué)”糾正。

　　即根據(jù)上步的總結(jié)比對(duì)模型原始的輸出，得出新的答案。

　　具體實(shí)施環(huán)節(jié)中，“啄木鳥(niǎo)”采用GPT-3.5-turbo來(lái)完成關(guān)鍵概念提取、提問(wèn)和最后一步的糾正。

　　由于一些多模態(tài)模型的指令跟隨能力較弱，導(dǎo)致結(jié)果可能輸出無(wú)關(guān)文本(例如表情、特殊符號(hào))，再加上有時(shí)一些模型只輸出一個(gè)“是”或“否”，這讓實(shí)際的校正過(guò)程也面臨挑戰(zhàn)。

　　不過(guò)，我們兩個(gè)簡(jiǎn)單措施就可以搞定：

　　(1)將模型回答的“是”或“否”與“啄木鳥(niǎo)”給出的答案組合起來(lái)，比如“是的，圖像中有一只狗”，就不怕模型原本只是給出一個(gè)簡(jiǎn)單的“yes or no”逃過(guò)校正了。

　　(2)在校正過(guò)程中，將原始問(wèn)題添加到LLM，以便LLM更好地掌握文本和任務(wù)要求。

　　效果驗(yàn)證：幻覺(jué)減少30%

　　整個(gè)方法看起來(lái)非常好理解，效果如何呢?

　　在此，作者在POPE、MME和LLaVA-QA90數(shù)據(jù)集上進(jìn)行了全面的定量和定性實(shí)驗(yàn)。

　　基線模型選用這四個(gè)主流多模態(tài)大模型：

　　MiniGPT-4、mPLUG Owl、LLaVA和Otter。

　　最終，POPE數(shù)據(jù)集上的結(jié)果如下：

　　(w/Ours表示由“啄木鳥(niǎo)”校正的MLLM響應(yīng)，x為未采用，對(duì)勾為采用)

　　可以看到，“啄木鳥(niǎo)”都能給這幾個(gè)模型帶來(lái)不同程度的提升，同時(shí)大幅降低模型回答“yes”的概率。

　　其中在隨機(jī)設(shè)定下，它給MiniGPT-4和mPLUG-Owl和在準(zhǔn)確率指標(biāo)上分別帶來(lái)了30.66%和24.33%的提升。

內(nèi)容圖片

　　在更全面的MME數(shù)據(jù)集上，“啄木鳥(niǎo)”也有效減少了多模態(tài)大模型在對(duì)象級(jí)和屬性級(jí)層面的“幻覺(jué)”，也就是某物是否存在、數(shù)量多少，以及它的位置和顏色。

　　比如LLaVA的顏色得分從78.33分大幅提升到155分。

內(nèi)容圖片

　　不過(guò)，位置方面的“幻覺(jué)”提升不是特別大，作者推測(cè)可能是VQA模型BLIP-2在位置推理方面的能力相對(duì)較弱等原因造成的。

　　為了更直接地衡量修正表現(xiàn)，更直接的方式是使用開(kāi)放評(píng)測(cè)。

　　不同于以往將圖片轉(zhuǎn)譯后送入純文本GPT-4的做法，作者利用OpenAI最近開(kāi)放的視覺(jué)接口，提出使用GPT-4V對(duì)修正前后的圖片描述直接對(duì)下列兩個(gè)維度進(jìn)行打分：

　　(1)準(zhǔn)確度：模型的答復(fù)相對(duì)于圖片內(nèi)容是否準(zhǔn)確;

　　(2)細(xì)節(jié)程度：模型答復(fù)的細(xì)節(jié)豐富度。

　　在該實(shí)驗(yàn)條件下，實(shí)驗(yàn)結(jié)果如下表所示(滿分為10)：

內(nèi)容圖片

　　結(jié)果表明經(jīng)過(guò)“啄木鳥(niǎo)“修正后圖片描述的準(zhǔn)確性有一定的提升，這說(shuō)明該框架可以有效修正描述中幻視的部分。

　　另一方面，“啄木鳥(niǎo)“修正后引入的定位信息豐富了文本描述，提供了進(jìn)一步的位置信息，從而提升了細(xì)節(jié)豐富度。

　　GPT-4V輔助的評(píng)測(cè)樣例如下圖所示：

內(nèi)容圖片

　　試玩

　　還有Demo供大家測(cè)試使用。

　　如下圖所示，上傳圖片并輸入請(qǐng)求，就可以得到修正前以及修正后的模型答復(fù)，以及供參考驗(yàn)證的新圖片。

內(nèi)容圖片

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng)，展示全球科技創(chuàng)新力量

近日，德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng)，有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

服貿(mào)會(huì)高通展示開(kāi)放創(chuàng)新生態(tài)，以5G、AI等技術(shù)促進(jìn)合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來(lái)三季再續(xù)輝煌

新聞

敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

近日，中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無(wú)人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來(lái)都要半個(gè)月了，現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

2024年3月12日，由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

研究

2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)

返回主頁(yè) ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁(yè)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

多模態(tài)LLM幻覺(jué)問(wèn)題降低30%！業(yè)內(nèi)首個(gè)“啄木鳥(niǎo)”免重訓(xùn)方法誕生｜中科大

擴(kuò)展閱讀

多模態(tài)LLM幻覺(jué)問(wèn)題降低30%！業(yè)內(nèi)首個(gè)“啄木鳥(niǎo)”免重訓(xùn)方法誕生｜中科大