在多模態(tài)任務中,視覺語言模型(VLMs)起著至關重要的作用,如圖像檢索、圖像說明和醫(yī)學診斷等。這些模型的目標是將視覺數(shù)據(jù)與語言數(shù)據(jù)進行對齊,以實現(xiàn)更高效的信息處理。然而,目前的 VLMs 在理解否定方面仍面臨重大挑戰(zhàn)。
否定在許多應用中至關重要,例如區(qū)分 “沒有窗戶的房間” 和 “有窗戶的房間”。盡管 VLMs 取得了顯著進展,但在處理否定陳述時,現(xiàn)有模型的表現(xiàn)卻大幅下降。這種限制尤其在安全監(jiān)控和醫(yī)療保健等高風險領域中顯得尤為重要。
現(xiàn)有的 VLMs,如 CLIP,采用共享嵌入空間來對齊視覺和文本表示。雖然這些模型在跨模態(tài)檢索和圖像說明等任務上表現(xiàn)出色,但在處理否定語句時卻顯得力不從心。此問題的根源在于預訓練數(shù)據(jù)的偏差,訓練數(shù)據(jù)主要由肯定示例構成,導致模型將否定與肯定陳述視為同義。因此,現(xiàn)有的基準測試,如 CREPE 和 CC-Neg,采用了簡單的模板示例,無法真實反映自然語言中否定的豐富性和深度。這使得 VLMs 在進行精準的語言理解應用時,如查詢醫(yī)學影像數(shù)據(jù)庫中的復雜條件,面臨巨大挑戰(zhàn)。
為了解決這些問題,來自麻省理工學院、谷歌 DeepMind 和牛津大學的研究人員提出了 NegBench 框架,用于評估和改進 VLMs 對否定的理解能力。該框架評估兩個基本任務:檢索與否定(Retrieval-Neg),檢驗模型根據(jù)肯定和否定描述檢索圖像的能力;多項選擇題與否定(MCQ-Neg),評估模型在微妙理解上的表現(xiàn)。NegBench 使用大量合成數(shù)據(jù)集,如 CC12M-NegCap 和 CC12M-NegMCQ,包含數(shù)百萬個涵蓋豐富否定場景的標題,從而提高模型的訓練和評估效果。
通過結合真實和合成的數(shù)據(jù)集,NegBench 有效克服了現(xiàn)有模型的限制,顯著提高了模型的性能和泛化能力。經(jīng)過微調(diào)的模型在檢索和理解任務上都表現(xiàn)出顯著改善,特別是在處理否定查詢時,模型的召回率提高了10%。在多項選擇任務中,準確率提升了多達40%,顯示出在微妙的肯定和否定標題之間進行區(qū)分的能力大大增強。
NegBench 的提出,填補了 VLMs 在理解否定方面的關鍵空白,為構建更強大的人工智能系統(tǒng)鋪平了道路,尤其在醫(yī)學診斷和語義內(nèi)容檢索等關鍵領域具有重要意義。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。