冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點京東iPhone 16系列年底大放價!至高補貼1200元價格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實漂亮!百度職業(yè)院校專屬項目“大國智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計大賽,全國高校學(xué)子展現(xiàn)卓越編程實力碼蹄杯人物特寫:四位編程少年的追夢之旅金倉數(shù)據(jù)庫四項成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會 CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊育潤康引領(lǐng)孕產(chǎn)營養(yǎng)新風(fēng)尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構(gòu)計劃:純64位設(shè)計再度戛然而止豆包大模型全面升級,相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達(dá)發(fā)布 11 月簡報:快遞業(yè)務(wù)量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認(rèn)并調(diào)查Microsoft 365 應(yīng)用出現(xiàn)“產(chǎn)品已停用”錯誤SK 海力士被曝贏得博通HBM訂單,預(yù)計明年 1b DRAM 月產(chǎn)能將擴大到 16~17 萬片
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 科技資訊

    高通專利介紹用于聯(lián)合場景分割、一次性長期對象追蹤的場景分割和對象追蹤方法

    2023年12月19日 16:01:27   來源:DoNews

      擴展現(xiàn)實設(shè)備可以通過攝像頭來檢測、追蹤和識別目標(biāo)事件或?qū)ο蟆ο髾z測可用于檢測或識別圖像或幀中的對象,并且可以執(zhí)行對象追蹤,以便隨時間追蹤檢測到的對象。同時,可以執(zhí)行圖像分割來檢測幀中的多個片段,對其進行分析和處理以執(zhí)行所需的圖像處理任務(wù)或生成所需的圖像效果。

      現(xiàn)有的場景分割和/或目標(biāo)追蹤解決方案有一定的局限性。例如,用于對象追蹤的解決方案的示例包括在前一幀中目標(biāo)對象的位置附近的區(qū)域中執(zhí)行本地搜索。然而,執(zhí)行這種局部搜索依賴于基于前一幀的預(yù)測,這可能適合于短期追蹤,但不能用于在大量幀(例如超過5幀)重新檢測目標(biāo)對象。

      用于對象追蹤解決方案的另一個示例包括通過基于對象檢測結(jié)果搜索目標(biāo)對象來執(zhí)行檢測和追蹤。這種解決方案的一個問題是,它依賴于對象檢測。這有一定的問題。例如,對象檢測受到可檢測的預(yù)定義類的限制,不屬于預(yù)定義類的任何對象都無法檢測到。另外,目標(biāo)檢測是一個復(fù)雜的過程,需要大量的計算資源。

      另一種解決方案涉及使用單獨的分割和追蹤模型,但由于使用兩個模型,這可能具有很高的計算成本。

      聯(lián)合場景分割和一次性長期目標(biāo)追蹤是一種理想的解決方案,它允許系統(tǒng)利用場景分割的特征在多個幀對一個或多個目標(biāo)對象執(zhí)行對象追蹤。這樣的解決方案可以實現(xiàn)實時視頻分割和追蹤。

      在名為“Scene segmentation and object tracking”的高通專利申請中,高通介紹了一種用于聯(lián)合場景分割和一次性長期對象追蹤的場景分割和對象追蹤方法。

      對于一次長期目標(biāo)追蹤和分割,場景分割和目標(biāo)追蹤系統(tǒng)可以進行一次學(xué)習(xí),以學(xué)習(xí)初始幀中定義的新對象。場景分割和對象追蹤系統(tǒng)可以執(zhí)行長期追蹤。目標(biāo)分割可以將追蹤的目標(biāo)對象從背景中分割出來。

      高通表示,所述技術(shù)提供了一種高效的多任務(wù)解決方案,可使用語義場景特征進行語義分割和長期一次性對象追蹤和分割,使得系統(tǒng)的計算成本較低。

      圖1是示出場景分割和對象追蹤系統(tǒng)100的架構(gòu)的框圖。場景分割和對象追蹤系統(tǒng)100包括用于追蹤視頻幀序列中的對象的各種組件,所述視頻幀序列可包括一個或多個輸入幀101。如圖所示,場景分割和目標(biāo)追蹤系統(tǒng)100的組件包括語義提取引擎102、特征記憶104、交叉注意引擎106和預(yù)測引擎108。

      場景分割和對象追蹤系統(tǒng)100可以處理至少有一個目標(biāo)對象位于其中的場景的幀序列。幀序列可以包括一個或多個輸入幀101。

      在一個實施例中,幀序列可以由場景分割和對象追蹤系統(tǒng)100的一個或多個圖像捕獲設(shè)備捕獲。在一個說明性示例中,場景分割和對象追蹤系統(tǒng)100可以包括一個RGB攝像頭或多個RGB攝像頭。在另一個示例中,場景分割和目標(biāo)追蹤系統(tǒng)100可以包括一個或多個紅外攝像頭和一個或多個RGB攝像頭。

      語義提取引擎102可以處理來自所述一個或多個幀101的幀,從而為所述幀生成一個或多個分割掩碼103。一個或多個分割掩碼103可包括對所述幀中的每個像素的各自分類。例如,如果幀包含人、樹、草和天空,則語義提取引擎102可以將特定像素分類為“人”類、“樹”類、“草”類或“天空”類。

      在生成一個或多個分割掩碼103時,語義提取引擎102可以生成多個特征。例如,語義提取引擎102可以包括或是經(jīng)過訓(xùn)練以執(zhí)行語義分割的神經(jīng)網(wǎng)絡(luò)的一部分。

      所述神經(jīng)網(wǎng)絡(luò)可包括至少一個隱藏層,隱藏層生成一個或多個特征向量或其他特征表示,以表示來自所述一個或多個幀101的每一幀的特征。神經(jīng)網(wǎng)絡(luò)的每個隱藏層可以從前一個隱藏層提供的輸入生成一個或多個特征向量。語義提取引擎102可以從一個或多個隱藏層提取或輸出特征到特征存儲器104。

      在一個實施例中,語義提取引擎102的輸出輸出到特征存儲器104。特征存儲器104可存儲由語義提取引擎102為所述一個或多個輸入幀101的每一幀提取的特征。存儲在特征存儲器104中的特征可以表示前景和背景。

      當(dāng)語義提取引擎102處理每個新的輸入幀時,特征存儲器104或系統(tǒng)100的處理設(shè)備可以基于從新輸入幀提取的特征更新存儲在特征存儲器104中的特征。

      在一個實施例中,當(dāng)來自預(yù)測引擎108的預(yù)測置信度小于置信度閾值時,特征存儲器104或處理設(shè)備可以暫停更新特征存儲器104。

      在一個實施例中,特征存儲器104或處理設(shè)備可以選擇不確定性小于不確定性閾值的特征來更新特征存儲器104。從初始幀提取的特征保留在特征存儲器104中。

      例如對于一個或多個輸入幀101的初始幀,場景分割和對象追蹤系統(tǒng)100可以使用前景-背景掩碼105來學(xué)習(xí)特定幀的前景和背景。前景-背景掩碼105可以是二進制掩碼,包括表示相應(yīng)輸入幀中的目標(biāo)對象的第一值和表示相應(yīng)輸入幀中的背景的第二值的像素。

      語義提取引擎102可以使用前景-背景掩碼105來指導(dǎo)對相應(yīng)輸入幀。在一個實施例中,前景-背景掩碼105僅用于初始幀,以初始化為幀序列存儲在特征存儲器104中的特征。場景分割和目標(biāo)追蹤系統(tǒng)100可以處理幀序列中的后續(xù)輸入幀,而不使用前景-背景掩碼作為輸入。

      在追蹤期間,語義提取引擎102可以生成一個或多個分割掩碼103并提取可被場景分割和對象追蹤系統(tǒng)100用于追蹤幀序列中的至少一個目標(biāo)對象的特征。例如,語義提取引擎102可以將從當(dāng)前輸入幀提取的特征輸出到交叉注意引擎106。

      如上所述,特征表示前景和背景。交叉注意引擎106可從特征存儲器104獲得所存儲的特征。交叉注意引擎106可以將所存儲的特征與從當(dāng)前輸入幀提取的特征進行比較,以生成表示當(dāng)前幀的前景和背景的組合表示。

      交叉注意引擎106可向預(yù)測引擎108輸出所述組合表示或特征。預(yù)測引擎108基于前景和當(dāng)前輸入幀的背景在組合表示或特征中的表示確定或預(yù)測目標(biāo)對象在當(dāng)前輸入幀中的位置,從而生成預(yù)測結(jié)果107。

      在一個實施例中,預(yù)測引擎108可以生成表示目標(biāo)對象位置的邊界框。預(yù)測引擎108同時可以生成前景-背景掩碼。前景-背景掩碼可用于基于從當(dāng)前幀提取的特征更新特征存儲器104。

      圖2是示出場景分割和對象追蹤系統(tǒng)200的示例框圖。場景分割和對象追蹤系統(tǒng)200是場景分割和對象追蹤系統(tǒng)100的示例實施例,用于初始化用于對由場景的一個或多個幀捕獲的一個或多個目標(biāo)對象執(zhí)行對象追蹤的系統(tǒng)。

      例如,場景分割和對象追蹤系統(tǒng)200可以使用初始化幀201來初始化用于追蹤的場景分割和對象追蹤系統(tǒng)。所述初始化幀201可包括所述場景的幀序列的初始幀。

      在一個說明性示例中,初始化幀201可以具有具有3個顏色通道的480像素×640像素的分辨率,如圖2所示為3×480×640。初始化幀201可以具有任何其他合適的分辨率或顏色通道的數(shù)量。

      語義提取引擎202包括用于執(zhí)行語義分割和特征提取的語義主干210。語義主干210可以包括機器學(xué)習(xí)系統(tǒng),例如經(jīng)過訓(xùn)練以執(zhí)行語義分割的神經(jīng)網(wǎng)絡(luò)。例如,語義主干210可以實現(xiàn)為使用基于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)的多個訓(xùn)練幀或圖像進行訓(xùn)練的編碼器-解碼器神經(jīng)網(wǎng)絡(luò)。

      語義主干210可以處理初始化幀201以生成一個或多個分段掩碼203。類似于一個或多個分割掩碼103,一個或多個分割掩碼203可以包括初始化幀201中每個像素的相應(yīng)分類。

      如圖2所示,初始化幀201包括幀201中間的一個人和其他背景信息。所述人的身體分類為第一類,所述人的臉分類為第二類,所述幀201中的樹葉分類為第三類,所述幀201中的建筑物被分類為第四類,如所述一個或多個分割掩碼203中的不同圖案所示。

      一個或多個分段掩碼203可以是任何合適的大小。在圖2所示的示例中,一個或多個分割掩碼203的分辨率為480×640,與初始化幀201的分辨率相匹配,深度為M,對應(yīng)于語義類別的數(shù)量,從而得到M×480×640分割掩碼。

      在一個例子中,在上面的“人”類、“臉”類、“樹葉”類和“建筑”類的例子中,M可以等于4。在這樣的示例中,存在4個以上的語義類別,但初始化幀201中的對象都不對應(yīng)于訓(xùn)練語義主干210對其進行分類的附加語義類別。

      一個或多個分割掩碼203可用于包括場景分割和對象追蹤系統(tǒng)200或與場景分割和對象追蹤系統(tǒng)200分離的系統(tǒng)中的一個或多個處理。例如,攝像頭系統(tǒng)可以使用分割掩碼來處理幀,例如以不同的方式處理圖像的不同部分。

      語義主干210生成多個特征,作為生成一個或多個分割掩碼203的過程的一部分。例如在用于語義主干210的神經(jīng)網(wǎng)絡(luò)實現(xiàn)的示例中,神經(jīng)網(wǎng)絡(luò)的每個隱藏層可以在特定深度輸出具有特定分辨率的一個或多個特征圖。

      在編碼器-解碼器神經(jīng)網(wǎng)絡(luò)的示例中,編碼器部分的每個后續(xù)隱藏層可以輸出與前一個隱藏層相比具有較小分辨率的特征映射,而解碼器部分的每個后續(xù)隱藏層可以輸出與前一個隱藏層相比具有較大分辨率的特征映射。

      在一個實施例中,場景分割和對象追蹤系統(tǒng)200可用于追蹤多個對象。在這種多目標(biāo)追蹤情況下,所有目標(biāo)對象可以共享相同的提取特征,以便語義主干210只對初始化幀201運行一次。

      語義提取引擎202可從語義主干210提取特征,并將提取的特征輸出到語義提取引擎202的融合引擎212。例如,構(gòu)成語義主干210的神經(jīng)網(wǎng)絡(luò)的每個隱藏層可以輸出具有不同分辨率或比例的特征圖。語義主干210可以從一個或多個隱藏層提取特征映射,并將所述特征映射輸出到融合引擎212。

      語義提取引擎202可將融合特征213輸出到掩碼嵌入引擎214。所述掩碼嵌入引擎214可以使用所述融合特征213和前景-背景掩碼205來學(xué)習(xí)所述初始化幀201的前景和背景。

      在一個實施例中,掩碼嵌入引擎214可以使用前景-背景掩碼105來指導(dǎo)學(xué)習(xí)與前景相對應(yīng)的融合特征213的特征和與初始化幀201的背景相對應(yīng)的融合特征213的特征,從而可以提供對初始化幀201中所描繪的場景的前景和背景的一次性學(xué)習(xí)。

      例如,掩碼嵌入引擎214可以將為初始化幀201生成的融合特征213與前景-背景掩碼205組合以生成修改的特征215。在一個說明性示例中,為了將融合特征213與前景-背景掩碼205結(jié)合,掩碼嵌入引擎214可以將前景-背景掩碼205嵌入到具有卷積層的特定尺寸的特征(用x表示)中,并且可以將特征x添加到融合特征213中。

      將特征x與融合特征213相加的和可以輸出到另一個卷積層以生成修改后的特征215。修改后的特征215可以具有與圖2所示的融合特征213相同的尺寸和深度,或者可以具有不同的分辨率和/或深度。

      在一個實施例中,前景-背景掩碼僅可用于初始化幀201,以初始化存儲在特征存儲器204中的用于幀序列的特征。在這方面,場景分割和對象追蹤系統(tǒng)200可以處理幀序列中的后續(xù)輸入幀,而無需使用前景-背景蒙版作為執(zhí)行追蹤的輸入。

      所述修改的特征215可輸出到特征嵌入引擎216,所述特征嵌入引擎216可進一步將所述修改的特征215嵌入為鍵值對217以初始化所述特征存儲器204。如圖2所示,鍵值對217可以包括兩個特征映射,每個特征映射的維度為30×40,深度為64通道。鍵值對217可以被重塑為一個維度64×N (×2),其中64是通道的數(shù)量,N對應(yīng)于存儲在特征存儲器204中的鍵值對的數(shù)量,×2表示有兩個64×N張量或向量。

      在這個示例中,有N個鍵和N個值,每個鍵和值都是一個64維張量或向量。存儲在特征存儲器104中的特征的初始存儲的鍵值對可以表示前景和初始化幀201的背景。

      當(dāng)幀序列的每個后續(xù)幀由語義提取引擎202處理時,存儲在特征存儲器104中的特征可以基于新提取的特征進行更新。

      圖3是示出場景分割和對象追蹤系統(tǒng)300的示例的框圖,所述系統(tǒng)用于在上述關(guān)于圖2的幀序列的初始化幀201之后的一個或多個幀中對一個或多個目標(biāo)對象執(zhí)行預(yù)測以進行對象追蹤。

      場景分割和對象追蹤系統(tǒng)300可以基于通過交叉注意執(zhí)行的全局搜索來執(zhí)行用于對象追蹤的預(yù)測。

      在一個實施例中,場景分割與對象追蹤系統(tǒng)300是場景分割與對象追蹤系統(tǒng)100在對所述幀序列的一個或多個查詢幀中的一個或多個目標(biāo)對象執(zhí)行追蹤時的示例實施例。

      在追蹤一個或多個目標(biāo)對象期間,語義主干210可以處理當(dāng)前查詢幀301并使用上述與圖2相關(guān)的技術(shù)生成一個或多個分割掩碼303。融合引擎212可以基于從語義主干210提取的特征生成融合特征313。所融合的特征313可輸出到所述特征嵌入引擎216,所述特征嵌入引擎216可生成包含兩個特征映射的鍵值對317。

      場景分割和對象追蹤系統(tǒng)300的交叉注意引擎306可以處理來自特征存儲器204的鍵值對,并且所述鍵值對317為當(dāng)前查詢幀301輸出所述特征嵌入引擎216。例如,交叉注意引擎306可以將來自特征存儲器204的存儲的鍵值對與從當(dāng)前查詢幀中提取的鍵值對317進行比較,以生成表示當(dāng)前查詢幀301的前景和背景的組合表示。

      如上所述,發(fā)明描述的場景分割和目標(biāo)追蹤系統(tǒng)和技術(shù)可以通過利用語義場景分割期間確定的特征來執(zhí)行一個或多個目標(biāo)對象在一系列幀的目標(biāo)追蹤,從而提供計算效率高的聯(lián)合場景分割和目標(biāo)追蹤。

      例如,由于用于多對象追蹤的特性是與所有被追蹤的目標(biāo)對象共享的,因此隨著追蹤的目標(biāo)對象越來越多,延遲的增加是最小的。另外,語義分割模型是追蹤器的集成模塊,在這種情況下,打開追蹤功能可以減少延遲的增加。

      名為“Scene segmentation and object tracking”的高通專利申請最初在2022年5月提交,并在日前由美國專利商標(biāo)局公布。

      需要注意的是,一般來說,美國專利申請接收審查后,自申請日或優(yōu)先權(quán)日起18個月自動公布或根據(jù)申請人要求在申請日起18個月內(nèi)進行公開。注意,專利申請公開不代表專利獲批。在專利申請后,美國專利商標(biāo)局需要進行實際審查,時間可能在1年至3年不等。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。