豆包實時語音大模型正式上線!端到端語音對話 情商智商雙高詳解2024小紅書百大買手:一多半是“素人”、千萬買手增長2.6倍蘋果年前還有新品!Powerbeats Pro 2耳機一周內(nèi)發(fā)布小愛同學史上最大變革!小米超級小愛適配機型公布:16款已開啟推送一文讀懂 AGI Open Network綠盟科技2024年預計收入高增,虧損大幅收窄微軟Win11新體驗:端側AI推進自然語言搜索,升級Click To Do實現(xiàn)圈選即搜消息稱索尼PS6主機已完成芯片設計,采用AMD "gfx13" GPU早期分支小鵬MONA M03汽車哨兵模式官宣“即將上車”,號稱同價位唯一小米將收購蔚來?蔚來馬麟回應曝AMD RX 9070 XT售價4300元!性能匹敵RTX 5070 Ti價格還低20%別再說現(xiàn)在沒人愛看電視了,看準這幾點讓你愛不釋手!三星最薄旗艦 Galaxy S25 Slim 手機被曝區(qū)域限定,僅在韓國發(fā)售華碩推出 ATX / MATX 款 ROG STRIX B860 吹雪谷歌安卓 16 發(fā)布時間表出爐:本月發(fā)首個Beta更新,穩(wěn)定版Q2發(fā)布三諾新材料向“新”提“質(zhì)” 引領智能產(chǎn)業(yè)轉(zhuǎn)型升級蟬媽媽行業(yè)首發(fā)文生數(shù)字人,打幾個字就能動的數(shù)字人愛立信將為Three UK構建下一代云原生核心網(wǎng)MIT、 DeepMind研究揭示視覺語言模型無法理解否定表達的原因商湯日日新融合大模型交互版開放商用
  • 首頁 > 云計算頻道 > 大模型

    MIT、 DeepMind研究揭示視覺語言模型無法理解否定表達的原因

    2025年01月20日 15:56:07   來源:AIbase基地

      在多模態(tài)任務中,視覺語言模型(VLMs)起著至關重要的作用,如圖像檢索、圖像說明和醫(yī)學診斷等。這些模型的目標是將視覺數(shù)據(jù)與語言數(shù)據(jù)進行對齊,以實現(xiàn)更高效的信息處理。然而,目前的 VLMs 在理解否定方面仍面臨重大挑戰(zhàn)。

      否定在許多應用中至關重要,例如區(qū)分 “沒有窗戶的房間” 和 “有窗戶的房間”。盡管 VLMs 取得了顯著進展,但在處理否定陳述時,現(xiàn)有模型的表現(xiàn)卻大幅下降。這種限制尤其在安全監(jiān)控和醫(yī)療保健等高風險領域中顯得尤為重要。

      現(xiàn)有的 VLMs,如 CLIP,采用共享嵌入空間來對齊視覺和文本表示。雖然這些模型在跨模態(tài)檢索和圖像說明等任務上表現(xiàn)出色,但在處理否定語句時卻顯得力不從心。此問題的根源在于預訓練數(shù)據(jù)的偏差,訓練數(shù)據(jù)主要由肯定示例構成,導致模型將否定與肯定陳述視為同義。因此,現(xiàn)有的基準測試,如 CREPE 和 CC-Neg,采用了簡單的模板示例,無法真實反映自然語言中否定的豐富性和深度。這使得 VLMs 在進行精準的語言理解應用時,如查詢醫(yī)學影像數(shù)據(jù)庫中的復雜條件,面臨巨大挑戰(zhàn)。

      為了解決這些問題,來自麻省理工學院、谷歌 DeepMind 和牛津大學的研究人員提出了 NegBench 框架,用于評估和改進 VLMs 對否定的理解能力。該框架評估兩個基本任務:檢索與否定(Retrieval-Neg),檢驗模型根據(jù)肯定和否定描述檢索圖像的能力;多項選擇題與否定(MCQ-Neg),評估模型在微妙理解上的表現(xiàn)。NegBench 使用大量合成數(shù)據(jù)集,如 CC12M-NegCap 和 CC12M-NegMCQ,包含數(shù)百萬個涵蓋豐富否定場景的標題,從而提高模型的訓練和評估效果。

      通過結合真實和合成的數(shù)據(jù)集,NegBench 有效克服了現(xiàn)有模型的限制,顯著提高了模型的性能和泛化能力。經(jīng)過微調(diào)的模型在檢索和理解任務上都表現(xiàn)出顯著改善,特別是在處理否定查詢時,模型的召回率提高了10%。在多項選擇任務中,準確率提升了多達40%,顯示出在微妙的肯定和否定標題之間進行區(qū)分的能力大大增強。

      NegBench 的提出,填補了 VLMs 在理解否定方面的關鍵空白,為構建更強大的人工智能系統(tǒng)鋪平了道路,尤其在醫(yī)學診斷和語義內(nèi)容檢索等關鍵領域具有重要意義。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。