研究人員在最新的一項研究中介紹了Ferret,這是一款多模式語言模型,旨在實現(xiàn)高級圖像理解和描述。該研究聚焦于視覺-語言學習中的關(guān)鍵問題,即如何融合地理信息和語義知識,以便模型能夠同時引用和定位圖像中的元素。研究指出,引用和定位是兩項關(guān)鍵的能力,前者要求模型理解語義描述,后者要求模型在圖像中定位相關(guān)區(qū)域。
為了解決這一問題,哥倫比亞大學和 Apple 的研究人員提出了Ferret模型,這是一款基于MLLM(多模式大語言模型)的新型模型,具備強大的全局理解能力。
Ferret模型的關(guān)鍵特點在于它可以同時處理自由文本和引用區(qū)域。它采用了一種混合區(qū)域表示方法,結(jié)合了離散坐標和連續(xù)視覺特征,以處理不同形狀的區(qū)域,如點、框、涂鴉和復雜多邊形。這種靈活性使Ferret能夠更準確地理解和描述圖像中的元素,提高了人機交互的全面性。
為了訓練Ferret模型,研究人員創(chuàng)建了GRIT(Ground-and-Refer Instruction-Tuning)數(shù)據(jù)集,其中包括1.1百萬個樣本,用于指導模型進行引用和定位。該數(shù)據(jù)集包含了不同層次的空間知識,包括區(qū)域描述、連接、物體和復雜的推理。通過精心設(shè)計的模板,大部分數(shù)據(jù)從當前的視覺-語言任務(wù)中轉(zhuǎn)化而來,如對象識別和短語定位,以用于指導模型。
研究人員還利用ChatGPT/GPT-4等工具,收集了34,000多個引用和定位對話,以幫助模型進行訓練。他們還進行了空間感知的負數(shù)據(jù)挖掘,以增強模型的魯棒性。Ferret模型表現(xiàn)出高度的開放式空間感知和定位能力,能夠在引用和定位任務(wù)上表現(xiàn)優(yōu)于傳統(tǒng)模型。此外,研究人員認為引用和定位能力應(yīng)該融入日常人機交流中,以實現(xiàn)更廣泛的應(yīng)用。
為了評估Ferret模型的性能,研究人員創(chuàng)建了Ferret-Bench,包括三種新類型的任務(wù):引用描述、引用推理和對話中的定位。他們將Ferret與目前使用的最佳MLLM模型進行比較,發(fā)現(xiàn)Ferret的性能平均優(yōu)于它們20.4%。此外,F(xiàn)erret還具有減少對象幻覺的顯著能力。
Ferret模型,它具備了在MLLM中進行精細和開放式引用和定位的能力。Ferret采用了一種混合區(qū)域表示方法,配備了獨特的空間感知視覺采樣器。此外,他們創(chuàng)建了GRIT數(shù)據(jù)集,用于模型訓練,并評估了Ferret在不同任務(wù)中的性能。這一研究為多模式語言模型領(lǐng)域帶來了突破性進展,為圖像理解和描述提供了新的可能性。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。