<form id="eax66"></form><option id="eax66"></option>

MIT、 DeepMind研究揭示視覺語言模型無法理解否定表達的原因

2025年01月20日 15:56:07 來源：AIbase基地

　　在多模態(tài)任務中，視覺語言模型(VLMs)起著至關重要的作用，如圖像檢索、圖像說明和醫(yī)學診斷等。這些模型的目標是將視覺數(shù)據(jù)與語言數(shù)據(jù)進行對齊，以實現(xiàn)更高效的信息處理。然而，目前的 VLMs 在理解否定方面仍面臨重大挑戰(zhàn)。

　　否定在許多應用中至關重要，例如區(qū)分 “沒有窗戶的房間” 和 “有窗戶的房間”。盡管 VLMs 取得了顯著進展，但在處理否定陳述時，現(xiàn)有模型的表現(xiàn)卻大幅下降。這種限制尤其在安全監(jiān)控和醫(yī)療保健等高風險領域中顯得尤為重要。

　　現(xiàn)有的 VLMs，如 CLIP，采用共享嵌入空間來對齊視覺和文本表示。雖然這些模型在跨模態(tài)檢索和圖像說明等任務上表現(xiàn)出色，但在處理否定語句時卻顯得力不從心。此問題的根源在于預訓練數(shù)據(jù)的偏差，訓練數(shù)據(jù)主要由肯定示例構成，導致模型將否定與肯定陳述視為同義。因此，現(xiàn)有的基準測試，如 CREPE 和 CC-Neg，采用了簡單的模板示例，無法真實反映自然語言中否定的豐富性和深度。這使得 VLMs 在進行精準的語言理解應用時，如查詢醫(yī)學影像數(shù)據(jù)庫中的復雜條件，面臨巨大挑戰(zhàn)。

　　為了解決這些問題，來自麻省理工學院、谷歌 DeepMind 和牛津大學的研究人員提出了 NegBench 框架，用于評估和改進 VLMs 對否定的理解能力。該框架評估兩個基本任務:檢索與否定(Retrieval-Neg)，檢驗模型根據(jù)肯定和否定描述檢索圖像的能力;多項選擇題與否定(MCQ-Neg)，評估模型在微妙理解上的表現(xiàn)。NegBench 使用大量合成數(shù)據(jù)集，如 CC12M-NegCap 和 CC12M-NegMCQ，包含數(shù)百萬個涵蓋豐富否定場景的標題，從而提高模型的訓練和評估效果。

　　通過結合真實和合成的數(shù)據(jù)集，NegBench 有效克服了現(xiàn)有模型的限制，顯著提高了模型的性能和泛化能力。經(jīng)過微調(diào)的模型在檢索和理解任務上都表現(xiàn)出顯著改善，特別是在處理否定查詢時，模型的召回率提高了10%。在多項選擇任務中，準確率提升了多達40%，顯示出在微妙的肯定和否定標題之間進行區(qū)分的能力大大增強。

　　NegBench 的提出，填補了 VLMs 在理解否定方面的關鍵空白，為構建更強大的人工智能系統(tǒng)鋪平了道路，尤其在醫(yī)學診斷和語義內(nèi)容檢索等關鍵領域具有重要意義。

　　文章內(nèi)容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信