擴(kuò)展現(xiàn)實(shí)設(shè)備可以通過攝像頭來檢測(cè)、追蹤和識(shí)別目標(biāo)事件或?qū)ο。?duì)象檢測(cè)可用于檢測(cè)或識(shí)別圖像或幀中的對(duì)象,并且可以執(zhí)行對(duì)象追蹤,以便隨時(shí)間追蹤檢測(cè)到的對(duì)象。同時(shí),可以執(zhí)行圖像分割來檢測(cè)幀中的多個(gè)片段,對(duì)其進(jìn)行分析和處理以執(zhí)行所需的圖像處理任務(wù)或生成所需的圖像效果。
現(xiàn)有的場(chǎng)景分割和/或目標(biāo)追蹤解決方案有一定的局限性。例如,用于對(duì)象追蹤的解決方案的示例包括在前一幀中目標(biāo)對(duì)象的位置附近的區(qū)域中執(zhí)行本地搜索。然而,執(zhí)行這種局部搜索依賴于基于前一幀的預(yù)測(cè),這可能適合于短期追蹤,但不能用于在大量幀(例如超過5幀)重新檢測(cè)目標(biāo)對(duì)象。
用于對(duì)象追蹤解決方案的另一個(gè)示例包括通過基于對(duì)象檢測(cè)結(jié)果搜索目標(biāo)對(duì)象來執(zhí)行檢測(cè)和追蹤。這種解決方案的一個(gè)問題是,它依賴于對(duì)象檢測(cè)。這有一定的問題。例如,對(duì)象檢測(cè)受到可檢測(cè)的預(yù)定義類的限制,不屬于預(yù)定義類的任何對(duì)象都無法檢測(cè)到。另外,目標(biāo)檢測(cè)是一個(gè)復(fù)雜的過程,需要大量的計(jì)算資源。
另一種解決方案涉及使用單獨(dú)的分割和追蹤模型,但由于使用兩個(gè)模型,這可能具有很高的計(jì)算成本。
聯(lián)合場(chǎng)景分割和一次性長(zhǎng)期目標(biāo)追蹤是一種理想的解決方案,它允許系統(tǒng)利用場(chǎng)景分割的特征在多個(gè)幀對(duì)一個(gè)或多個(gè)目標(biāo)對(duì)象執(zhí)行對(duì)象追蹤。這樣的解決方案可以實(shí)現(xiàn)實(shí)時(shí)視頻分割和追蹤。
在名為“Scene segmentation and object tracking”的高通專利申請(qǐng)中,高通介紹了一種用于聯(lián)合場(chǎng)景分割和一次性長(zhǎng)期對(duì)象追蹤的場(chǎng)景分割和對(duì)象追蹤方法。
對(duì)于一次長(zhǎng)期目標(biāo)追蹤和分割,場(chǎng)景分割和目標(biāo)追蹤系統(tǒng)可以進(jìn)行一次學(xué)習(xí),以學(xué)習(xí)初始幀中定義的新對(duì)象。場(chǎng)景分割和對(duì)象追蹤系統(tǒng)可以執(zhí)行長(zhǎng)期追蹤。目標(biāo)分割可以將追蹤的目標(biāo)對(duì)象從背景中分割出來。
高通表示,所述技術(shù)提供了一種高效的多任務(wù)解決方案,可使用語義場(chǎng)景特征進(jìn)行語義分割和長(zhǎng)期一次性對(duì)象追蹤和分割,使得系統(tǒng)的計(jì)算成本較低。
圖1是示出場(chǎng)景分割和對(duì)象追蹤系統(tǒng)100的架構(gòu)的框圖。場(chǎng)景分割和對(duì)象追蹤系統(tǒng)100包括用于追蹤視頻幀序列中的對(duì)象的各種組件,所述視頻幀序列可包括一個(gè)或多個(gè)輸入幀101。如圖所示,場(chǎng)景分割和目標(biāo)追蹤系統(tǒng)100的組件包括語義提取引擎102、特征記憶104、交叉注意引擎106和預(yù)測(cè)引擎108。
場(chǎng)景分割和對(duì)象追蹤系統(tǒng)100可以處理至少有一個(gè)目標(biāo)對(duì)象位于其中的場(chǎng)景的幀序列。幀序列可以包括一個(gè)或多個(gè)輸入幀101。
在一個(gè)實(shí)施例中,幀序列可以由場(chǎng)景分割和對(duì)象追蹤系統(tǒng)100的一個(gè)或多個(gè)圖像捕獲設(shè)備捕獲。在一個(gè)說明性示例中,場(chǎng)景分割和對(duì)象追蹤系統(tǒng)100可以包括一個(gè)RGB攝像頭或多個(gè)RGB攝像頭。在另一個(gè)示例中,場(chǎng)景分割和目標(biāo)追蹤系統(tǒng)100可以包括一個(gè)或多個(gè)紅外攝像頭和一個(gè)或多個(gè)RGB攝像頭。
語義提取引擎102可以處理來自所述一個(gè)或多個(gè)幀101的幀,從而為所述幀生成一個(gè)或多個(gè)分割掩碼103。一個(gè)或多個(gè)分割掩碼103可包括對(duì)所述幀中的每個(gè)像素的各自分類。例如,如果幀包含人、樹、草和天空,則語義提取引擎102可以將特定像素分類為“人”類、“樹”類、“草”類或“天空”類。
在生成一個(gè)或多個(gè)分割掩碼103時(shí),語義提取引擎102可以生成多個(gè)特征。例如,語義提取引擎102可以包括或是經(jīng)過訓(xùn)練以執(zhí)行語義分割的神經(jīng)網(wǎng)絡(luò)的一部分。
所述神經(jīng)網(wǎng)絡(luò)可包括至少一個(gè)隱藏層,隱藏層生成一個(gè)或多個(gè)特征向量或其他特征表示,以表示來自所述一個(gè)或多個(gè)幀101的每一幀的特征。神經(jīng)網(wǎng)絡(luò)的每個(gè)隱藏層可以從前一個(gè)隱藏層提供的輸入生成一個(gè)或多個(gè)特征向量。語義提取引擎102可以從一個(gè)或多個(gè)隱藏層提取或輸出特征到特征存儲(chǔ)器104。
在一個(gè)實(shí)施例中,語義提取引擎102的輸出輸出到特征存儲(chǔ)器104。特征存儲(chǔ)器104可存儲(chǔ)由語義提取引擎102為所述一個(gè)或多個(gè)輸入幀101的每一幀提取的特征。存儲(chǔ)在特征存儲(chǔ)器104中的特征可以表示前景和背景。
當(dāng)語義提取引擎102處理每個(gè)新的輸入幀時(shí),特征存儲(chǔ)器104或系統(tǒng)100的處理設(shè)備可以基于從新輸入幀提取的特征更新存儲(chǔ)在特征存儲(chǔ)器104中的特征。
在一個(gè)實(shí)施例中,當(dāng)來自預(yù)測(cè)引擎108的預(yù)測(cè)置信度小于置信度閾值時(shí),特征存儲(chǔ)器104或處理設(shè)備可以暫停更新特征存儲(chǔ)器104。
在一個(gè)實(shí)施例中,特征存儲(chǔ)器104或處理設(shè)備可以選擇不確定性小于不確定性閾值的特征來更新特征存儲(chǔ)器104。從初始幀提取的特征保留在特征存儲(chǔ)器104中。
例如對(duì)于一個(gè)或多個(gè)輸入幀101的初始幀,場(chǎng)景分割和對(duì)象追蹤系統(tǒng)100可以使用前景-背景掩碼105來學(xué)習(xí)特定幀的前景和背景。前景-背景掩碼105可以是二進(jìn)制掩碼,包括表示相應(yīng)輸入幀中的目標(biāo)對(duì)象的第一值和表示相應(yīng)輸入幀中的背景的第二值的像素。
語義提取引擎102可以使用前景-背景掩碼105來指導(dǎo)對(duì)相應(yīng)輸入幀。在一個(gè)實(shí)施例中,前景-背景掩碼105僅用于初始幀,以初始化為幀序列存儲(chǔ)在特征存儲(chǔ)器104中的特征。場(chǎng)景分割和目標(biāo)追蹤系統(tǒng)100可以處理幀序列中的后續(xù)輸入幀,而不使用前景-背景掩碼作為輸入。
在追蹤期間,語義提取引擎102可以生成一個(gè)或多個(gè)分割掩碼103并提取可被場(chǎng)景分割和對(duì)象追蹤系統(tǒng)100用于追蹤幀序列中的至少一個(gè)目標(biāo)對(duì)象的特征。例如,語義提取引擎102可以將從當(dāng)前輸入幀提取的特征輸出到交叉注意引擎106。
如上所述,特征表示前景和背景。交叉注意引擎106可從特征存儲(chǔ)器104獲得所存儲(chǔ)的特征。交叉注意引擎106可以將所存儲(chǔ)的特征與從當(dāng)前輸入幀提取的特征進(jìn)行比較,以生成表示當(dāng)前幀的前景和背景的組合表示。
交叉注意引擎106可向預(yù)測(cè)引擎108輸出所述組合表示或特征。預(yù)測(cè)引擎108基于前景和當(dāng)前輸入幀的背景在組合表示或特征中的表示確定或預(yù)測(cè)目標(biāo)對(duì)象在當(dāng)前輸入幀中的位置,從而生成預(yù)測(cè)結(jié)果107。
在一個(gè)實(shí)施例中,預(yù)測(cè)引擎108可以生成表示目標(biāo)對(duì)象位置的邊界框。預(yù)測(cè)引擎108同時(shí)可以生成前景-背景掩碼。前景-背景掩碼可用于基于從當(dāng)前幀提取的特征更新特征存儲(chǔ)器104。
圖2是示出場(chǎng)景分割和對(duì)象追蹤系統(tǒng)200的示例框圖。場(chǎng)景分割和對(duì)象追蹤系統(tǒng)200是場(chǎng)景分割和對(duì)象追蹤系統(tǒng)100的示例實(shí)施例,用于初始化用于對(duì)由場(chǎng)景的一個(gè)或多個(gè)幀捕獲的一個(gè)或多個(gè)目標(biāo)對(duì)象執(zhí)行對(duì)象追蹤的系統(tǒng)。
例如,場(chǎng)景分割和對(duì)象追蹤系統(tǒng)200可以使用初始化幀201來初始化用于追蹤的場(chǎng)景分割和對(duì)象追蹤系統(tǒng)。所述初始化幀201可包括所述場(chǎng)景的幀序列的初始幀。
在一個(gè)說明性示例中,初始化幀201可以具有具有3個(gè)顏色通道的480像素×640像素的分辨率,如圖2所示為3×480×640。初始化幀201可以具有任何其他合適的分辨率或顏色通道的數(shù)量。
語義提取引擎202包括用于執(zhí)行語義分割和特征提取的語義主干210。語義主干210可以包括機(jī)器學(xué)習(xí)系統(tǒng),例如經(jīng)過訓(xùn)練以執(zhí)行語義分割的神經(jīng)網(wǎng)絡(luò)。例如,語義主干210可以實(shí)現(xiàn)為使用基于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)的多個(gè)訓(xùn)練幀或圖像進(jìn)行訓(xùn)練的編碼器-解碼器神經(jīng)網(wǎng)絡(luò)。
語義主干210可以處理初始化幀201以生成一個(gè)或多個(gè)分段掩碼203。類似于一個(gè)或多個(gè)分割掩碼103,一個(gè)或多個(gè)分割掩碼203可以包括初始化幀201中每個(gè)像素的相應(yīng)分類。
如圖2所示,初始化幀201包括幀201中間的一個(gè)人和其他背景信息。所述人的身體分類為第一類,所述人的臉分類為第二類,所述幀201中的樹葉分類為第三類,所述幀201中的建筑物被分類為第四類,如所述一個(gè)或多個(gè)分割掩碼203中的不同圖案所示。
一個(gè)或多個(gè)分段掩碼203可以是任何合適的大小。在圖2所示的示例中,一個(gè)或多個(gè)分割掩碼203的分辨率為480×640,與初始化幀201的分辨率相匹配,深度為M,對(duì)應(yīng)于語義類別的數(shù)量,從而得到M×480×640分割掩碼。
在一個(gè)例子中,在上面的“人”類、“臉”類、“樹葉”類和“建筑”類的例子中,M可以等于4。在這樣的示例中,存在4個(gè)以上的語義類別,但初始化幀201中的對(duì)象都不對(duì)應(yīng)于訓(xùn)練語義主干210對(duì)其進(jìn)行分類的附加語義類別。
一個(gè)或多個(gè)分割掩碼203可用于包括場(chǎng)景分割和對(duì)象追蹤系統(tǒng)200或與場(chǎng)景分割和對(duì)象追蹤系統(tǒng)200分離的系統(tǒng)中的一個(gè)或多個(gè)處理。例如,攝像頭系統(tǒng)可以使用分割掩碼來處理幀,例如以不同的方式處理圖像的不同部分。
語義主干210生成多個(gè)特征,作為生成一個(gè)或多個(gè)分割掩碼203的過程的一部分。例如在用于語義主干210的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的示例中,神經(jīng)網(wǎng)絡(luò)的每個(gè)隱藏層可以在特定深度輸出具有特定分辨率的一個(gè)或多個(gè)特征圖。
在編碼器-解碼器神經(jīng)網(wǎng)絡(luò)的示例中,編碼器部分的每個(gè)后續(xù)隱藏層可以輸出與前一個(gè)隱藏層相比具有較小分辨率的特征映射,而解碼器部分的每個(gè)后續(xù)隱藏層可以輸出與前一個(gè)隱藏層相比具有較大分辨率的特征映射。
在一個(gè)實(shí)施例中,場(chǎng)景分割和對(duì)象追蹤系統(tǒng)200可用于追蹤多個(gè)對(duì)象。在這種多目標(biāo)追蹤情況下,所有目標(biāo)對(duì)象可以共享相同的提取特征,以便語義主干210只對(duì)初始化幀201運(yùn)行一次。
語義提取引擎202可從語義主干210提取特征,并將提取的特征輸出到語義提取引擎202的融合引擎212。例如,構(gòu)成語義主干210的神經(jīng)網(wǎng)絡(luò)的每個(gè)隱藏層可以輸出具有不同分辨率或比例的特征圖。語義主干210可以從一個(gè)或多個(gè)隱藏層提取特征映射,并將所述特征映射輸出到融合引擎212。
語義提取引擎202可將融合特征213輸出到掩碼嵌入引擎214。所述掩碼嵌入引擎214可以使用所述融合特征213和前景-背景掩碼205來學(xué)習(xí)所述初始化幀201的前景和背景。
在一個(gè)實(shí)施例中,掩碼嵌入引擎214可以使用前景-背景掩碼105來指導(dǎo)學(xué)習(xí)與前景相對(duì)應(yīng)的融合特征213的特征和與初始化幀201的背景相對(duì)應(yīng)的融合特征213的特征,從而可以提供對(duì)初始化幀201中所描繪的場(chǎng)景的前景和背景的一次性學(xué)習(xí)。
例如,掩碼嵌入引擎214可以將為初始化幀201生成的融合特征213與前景-背景掩碼205組合以生成修改的特征215。在一個(gè)說明性示例中,為了將融合特征213與前景-背景掩碼205結(jié)合,掩碼嵌入引擎214可以將前景-背景掩碼205嵌入到具有卷積層的特定尺寸的特征(用x表示)中,并且可以將特征x添加到融合特征213中。
將特征x與融合特征213相加的和可以輸出到另一個(gè)卷積層以生成修改后的特征215。修改后的特征215可以具有與圖2所示的融合特征213相同的尺寸和深度,或者可以具有不同的分辨率和/或深度。
在一個(gè)實(shí)施例中,前景-背景掩碼僅可用于初始化幀201,以初始化存儲(chǔ)在特征存儲(chǔ)器204中的用于幀序列的特征。在這方面,場(chǎng)景分割和對(duì)象追蹤系統(tǒng)200可以處理幀序列中的后續(xù)輸入幀,而無需使用前景-背景蒙版作為執(zhí)行追蹤的輸入。
所述修改的特征215可輸出到特征嵌入引擎216,所述特征嵌入引擎216可進(jìn)一步將所述修改的特征215嵌入為鍵值對(duì)217以初始化所述特征存儲(chǔ)器204。如圖2所示,鍵值對(duì)217可以包括兩個(gè)特征映射,每個(gè)特征映射的維度為30×40,深度為64通道。鍵值對(duì)217可以被重塑為一個(gè)維度64×N (×2),其中64是通道的數(shù)量,N對(duì)應(yīng)于存儲(chǔ)在特征存儲(chǔ)器204中的鍵值對(duì)的數(shù)量,×2表示有兩個(gè)64×N張量或向量。
在這個(gè)示例中,有N個(gè)鍵和N個(gè)值,每個(gè)鍵和值都是一個(gè)64維張量或向量。存儲(chǔ)在特征存儲(chǔ)器104中的特征的初始存儲(chǔ)的鍵值對(duì)可以表示前景和初始化幀201的背景。
當(dāng)幀序列的每個(gè)后續(xù)幀由語義提取引擎202處理時(shí),存儲(chǔ)在特征存儲(chǔ)器104中的特征可以基于新提取的特征進(jìn)行更新。
圖3是示出場(chǎng)景分割和對(duì)象追蹤系統(tǒng)300的示例的框圖,所述系統(tǒng)用于在上述關(guān)于圖2的幀序列的初始化幀201之后的一個(gè)或多個(gè)幀中對(duì)一個(gè)或多個(gè)目標(biāo)對(duì)象執(zhí)行預(yù)測(cè)以進(jìn)行對(duì)象追蹤。
場(chǎng)景分割和對(duì)象追蹤系統(tǒng)300可以基于通過交叉注意執(zhí)行的全局搜索來執(zhí)行用于對(duì)象追蹤的預(yù)測(cè)。
在一個(gè)實(shí)施例中,場(chǎng)景分割與對(duì)象追蹤系統(tǒng)300是場(chǎng)景分割與對(duì)象追蹤系統(tǒng)100在對(duì)所述幀序列的一個(gè)或多個(gè)查詢幀中的一個(gè)或多個(gè)目標(biāo)對(duì)象執(zhí)行追蹤時(shí)的示例實(shí)施例。
在追蹤一個(gè)或多個(gè)目標(biāo)對(duì)象期間,語義主干210可以處理當(dāng)前查詢幀301并使用上述與圖2相關(guān)的技術(shù)生成一個(gè)或多個(gè)分割掩碼303。融合引擎212可以基于從語義主干210提取的特征生成融合特征313。所融合的特征313可輸出到所述特征嵌入引擎216,所述特征嵌入引擎216可生成包含兩個(gè)特征映射的鍵值對(duì)317。
場(chǎng)景分割和對(duì)象追蹤系統(tǒng)300的交叉注意引擎306可以處理來自特征存儲(chǔ)器204的鍵值對(duì),并且所述鍵值對(duì)317為當(dāng)前查詢幀301輸出所述特征嵌入引擎216。例如,交叉注意引擎306可以將來自特征存儲(chǔ)器204的存儲(chǔ)的鍵值對(duì)與從當(dāng)前查詢幀中提取的鍵值對(duì)317進(jìn)行比較,以生成表示當(dāng)前查詢幀301的前景和背景的組合表示。
如上所述,發(fā)明描述的場(chǎng)景分割和目標(biāo)追蹤系統(tǒng)和技術(shù)可以通過利用語義場(chǎng)景分割期間確定的特征來執(zhí)行一個(gè)或多個(gè)目標(biāo)對(duì)象在一系列幀的目標(biāo)追蹤,從而提供計(jì)算效率高的聯(lián)合場(chǎng)景分割和目標(biāo)追蹤。
例如,由于用于多對(duì)象追蹤的特性是與所有被追蹤的目標(biāo)對(duì)象共享的,因此隨著追蹤的目標(biāo)對(duì)象越來越多,延遲的增加是最小的。另外,語義分割模型是追蹤器的集成模塊,在這種情況下,打開追蹤功能可以減少延遲的增加。
名為“Scene segmentation and object tracking”的高通專利申請(qǐng)最初在2022年5月提交,并在日前由美國(guó)專利商標(biāo)局公布。
需要注意的是,一般來說,美國(guó)專利申請(qǐng)接收審查后,自申請(qǐng)日或優(yōu)先權(quán)日起18個(gè)月自動(dòng)公布或根據(jù)申請(qǐng)人要求在申請(qǐng)日起18個(gè)月內(nèi)進(jìn)行公開。注意,專利申請(qǐng)公開不代表專利獲批。在專利申請(qǐng)后,美國(guó)專利商標(biāo)局需要進(jìn)行實(shí)際審查,時(shí)間可能在1年至3年不等。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
京東11.11采銷直播探廠為消費(fèi)者揭開答案。近日,京東3C數(shù)碼采銷走進(jìn)武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產(chǎn)品,并為消費(fèi)者帶來超值低價(jià)與福利。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。