APE 是一種全開源的多模態(tài)分割模型,其獨特之處在于采用了獨立建模每個類別名實例的方法。以往的方法通常將多個類別名聯(lián)結(jié)成一個單獨的 Prompt,但 APE 通過對每個類別名或描述短語進行獨立建模,可以學習到不同實例之間的差異。此外,APE 還通過壓縮 Word-Level Embeddings 為 Sentence-Level Embeddings 來減少計算復雜度和內(nèi)存消耗,從而有效地表達語義信息。
APE 采用了不同的特征融合方式來處理不同類型的 Prompt。對于純類別名的文本特征,采用一種 “zero” 文本 token 作為替代,以避免過擬合問題。而對于語言描述的文本特征,采用特定的融合方式將其與視覺特征進行語義級的理解。此外,APE 還通過矩陣乘法計算 Object Embeddings 和 Prompt Embeddings 之間的相似度,從而實現(xiàn)一次性檢測和分割。
APE 還通過統(tǒng)一前景和背景粒度來提高分割效果。在分割任務(wù)中,前景和背景的粒度是不同的,但傳統(tǒng)方法往往面臨前背景沖突的問題。為此,APE 提出統(tǒng)一前景和背景的粒度,將背景的不同塊視為獨立的標簽,從而使模型可以采用統(tǒng)一的架構(gòu)訓練前景和背景數(shù)據(jù),并方便地融入大規(guī)模的 Class-Agnostic 數(shù)據(jù)。
APE 在各個檢測、分割和指向性檢測數(shù)據(jù)集上都取得了強力結(jié)果。特別是在 D3數(shù)據(jù)集上,APE 的表現(xiàn)顯著優(yōu)于其他方法。在開集檢測任務(wù)中,APE 在常見數(shù)據(jù)集上的效果也明顯優(yōu)于其他方法。此外,APE 還在開集分割任務(wù)和視覺定位任務(wù)上取得了競爭性的結(jié)果,在 RoboFlow100和 ODinW 評測基準上取得了新的 SOTA。
APE 是一種非常有潛力的多模態(tài)分割模型,具有廣泛的應用前景。通過獨立建模每個類別名實例、壓縮 Word-Level Embeddings 為 Sentence-Level Embeddings、采用不同的特征融合方式、通過矩陣乘法進行 Object Embeddings 和 Prompt Embeddings 之間的相似度計算以及統(tǒng)一前景和背景粒度,APE 在多個常見數(shù)據(jù)集上取得了強力的分割效果,并展現(xiàn)出競爭力的結(jié)果。未來的研究可以進一步探索 APE 在其他視覺任務(wù)中的應用,以及對其方法進行優(yōu)化和改進。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。