Meta研究將頭部運(yùn)動(dòng)數(shù)據(jù)作為監(jiān)控信號進(jìn)行AR/VR用戶行為識別

2021年12月14日 11:57:14 來源：映維網(wǎng)

　　隨著Oculus和HoloLens等頭戴設(shè)備的出現(xiàn)，AR/VR技術(shù)正在開始蓬勃發(fā)展。就像過去幾十年的電腦智能手機(jī)一樣，AR/VR設(shè)備有望從根本上改變我們的日常生活和社會。為了實(shí)現(xiàn)這個(gè)未來，需要解決的一個(gè)基本挑戰(zhàn)是以自中心(egocentric)動(dòng)作識別，亦即通過頭戴式攝像頭實(shí)現(xiàn)對用戶活動(dòng)的機(jī)器理解。

　　隨著現(xiàn)代計(jì)算機(jī)視覺技術(shù)的進(jìn)步，現(xiàn)在人們熟悉的動(dòng)作識別方法是使用數(shù)百萬手動(dòng)分類為自中心動(dòng)作的視頻片段，并以有監(jiān)督的方式訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)。然而，這種方法至少有兩個(gè)局限性。第一，注釋足夠大的視頻剪輯來訓(xùn)練CNN非常昂貴;第二，即使擁有無限的預(yù)算，我們都無法涵蓋人類所有的潛在動(dòng)作。

　　要解決所述限制，一個(gè)富有前景方法是使用自監(jiān)督學(xué)習(xí)(SSL)來訓(xùn)練CNN，而所述領(lǐng)域已經(jīng)取得了快速的進(jìn)展。SSL不依賴人工注釋，而是利用數(shù)據(jù)中存在的固有屬性來訓(xùn)練各種下游任務(wù)的表示，例如對數(shù)據(jù)增強(qiáng)的不變性、數(shù)據(jù)的多模態(tài)等等。受其啟發(fā)，Meta和印第安納大學(xué)的團(tuán)隊(duì)在名為《How You Move Your Head Tells What You Do: Self-supervised Video Representation Learning with Egocentric Cameras and IMU Sensors》的論文中嘗試將頭部運(yùn)動(dòng)數(shù)據(jù)作為自我監(jiān)控信號來進(jìn)行自中心行為識別。

　　為了利用頭部運(yùn)動(dòng)數(shù)據(jù)的潛力并實(shí)現(xiàn)自中心視頻表示的SSL，團(tuán)隊(duì)需要回答幾個(gè)基本問題：頭部運(yùn)動(dòng)數(shù)據(jù)是否具有自中心視頻表示無法捕獲的唯一信息?如果是這樣，利用頭部運(yùn)動(dòng)中的有用信號進(jìn)行自中心視頻表征學(xué)習(xí)的有效方法是什么?最后，學(xué)習(xí)到的表示是否比在僅視頻數(shù)據(jù)上使用SSL進(jìn)行訓(xùn)練的表示更有效?

　　在研究中，Meta和印第安納大學(xué)的團(tuán)隊(duì)系統(tǒng)地回答了所述研究問題。實(shí)驗(yàn)表明，頭部運(yùn)動(dòng)可以提供額外的優(yōu)勢，即使是完全監(jiān)督學(xué)習(xí)都是如此。

　　然后，研究人員設(shè)計(jì)了一種簡單但有效的SSL方法，通過根據(jù)視頻對和頭部運(yùn)動(dòng)數(shù)據(jù)的對應(yīng)關(guān)系進(jìn)行分類來學(xué)習(xí)以自中心的視頻表示。團(tuán)隊(duì)使用這種方法在EPIC-KITCHENS數(shù)據(jù)集訓(xùn)練了相關(guān)模型，并展示了對廚房任務(wù)操作進(jìn)行分類的結(jié)果表示的有效性。另外，研究人員同時(shí)利用相同的表征來識別由狗狗頭部運(yùn)動(dòng)引起的自中心動(dòng)作，從而證明學(xué)習(xí)到的表征可以泛化到訓(xùn)練領(lǐng)域之外。

　　SSLtask formulation

　　受標(biāo)記數(shù)據(jù)集限制的啟發(fā)，團(tuán)隊(duì)希望針對AR/VR學(xué)習(xí)使用SSL的自中心視頻表示，特別是利用AR/VR可用的多模態(tài)數(shù)據(jù)，亦即由帶有IMU傳感器的頭戴式攝像頭捕獲的以自中心視頻和頭部運(yùn)動(dòng)。SSL通常利用代理任務(wù)來訓(xùn)練表示，無需人工注釋。例如，可以通過最大化相同圖像的兩個(gè)不同增強(qiáng)視圖之間的一致性來學(xué)習(xí)具有對比損失的圖像表示。

　　換句話說，給定一對隨機(jī)增強(qiáng)的圖像，如果它們來自同一圖像，則傾向于認(rèn)為它們的表示相似，而不是來自不同的圖像。對多模態(tài)情況的擴(kuò)展是對兩種模態(tài)(如音頻和視頻)之間的對應(yīng)關(guān)系進(jìn)行訓(xùn)練。受所述視聽SSL框架的啟發(fā)，研究人員提出了一個(gè)二進(jìn)制分類任務(wù)，以匹配頭戴式攝像頭捕獲的自中心視頻和頭部運(yùn)動(dòng)IMU信號之間的對應(yīng)關(guān)系，從而學(xué)習(xí)AR/VR中的自中心視頻表示。

　　SSL loss

　　訓(xùn)練表示使用上述SSL任務(wù)，研究人員隨機(jī)抽取一批與頭戴式IMU傳感器捕獲的頭部運(yùn)動(dòng)信號同步的短視頻片段(在實(shí)驗(yàn)中為2秒)。然后，提取視頻和IMU的特征向量，計(jì)算兩兩相似性，并只有當(dāng)它們來自同一剪輯時(shí)才傾向于認(rèn)為相似性高。具體地說，給定來自CNN的N對視頻和頭部運(yùn)動(dòng)特征向量，最小化以下對比損失函數(shù)L。

　　在SSL訓(xùn)練之后，可以使用視頻表示vi(如果需要，還可以使用頭部運(yùn)動(dòng)表示mi)來執(zhí)行動(dòng)作識別等下游任務(wù)。

　　團(tuán)隊(duì)使用EPIC-KITCHENS數(shù)據(jù)集進(jìn)行所有實(shí)驗(yàn)，但最后一個(gè)除外。最后一個(gè)實(shí)驗(yàn)使用了以狗為中心的活動(dòng)數(shù)據(jù)集，以展示所述方法在訓(xùn)練數(shù)據(jù)集之外的泛化能力。對于EPIC-KITCHENS數(shù)據(jù)集，選擇伴隨頭部(camera)運(yùn)動(dòng)的相應(yīng)IMU信號的視頻剪輯，并根據(jù)視頻ID對train:validation:test=30044:3032:4379進(jìn)行數(shù)據(jù)分割，分割中沒有重疊的主題。這種分割有65個(gè)獨(dú)特的測試動(dòng)詞，這意味著隨機(jī)猜測基線可以達(dá)到1.5%的準(zhǔn)確率。然而，由于動(dòng)作分布有偏差，主要?jiǎng)幼?take)占測試集的27%。

　　對于使用以狗為中心的活動(dòng)數(shù)據(jù)集的實(shí)驗(yàn)，研究人員選擇與頭部運(yùn)動(dòng)相關(guān)的活動(dòng)類別：行走、搖晃、向左看和向右看。這四個(gè)動(dòng)作幾乎是平衡的，而大多數(shù)行走類占據(jù)了數(shù)據(jù)集的30%。這個(gè)數(shù)據(jù)集很小(總共216個(gè)視頻剪輯，只選擇了86個(gè))，所以團(tuán)隊(duì)根據(jù)狗的ID分成了一半和一半，并進(jìn)行了2倍交叉驗(yàn)證，同時(shí)報(bào)告了平均準(zhǔn)確度。

　　為了訓(xùn)練等式1中描述的SSL丟失表示，研究人員使用SlowFast50作為視頻的主干CNN表示，VGG16表示頭部運(yùn)動(dòng)IMU信號。視頻CNN的時(shí)空輸入大小為256×256×48，分別對應(yīng)于寬度、高度和幀大小(幀速率為24fps)。原始IMU片段用396×6的矩陣表示，分別對應(yīng)于時(shí)間(頻率為198Hz)和通道(加速度計(jì)和陀螺儀的XYZ)。

　　團(tuán)隊(duì)的目標(biāo)是利用頭部運(yùn)動(dòng)來學(xué)習(xí)更好的自中心動(dòng)作識別視頻表示。然而，由于視頻是一種具有高保真度信息的豐富模式，是否還有空間讓頭部運(yùn)動(dòng)信號改善動(dòng)作識別的視頻表示?

　　為了回答這個(gè)問題，研究人員進(jìn)行了兩個(gè)初步實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是從頭部運(yùn)動(dòng)信號中訓(xùn)練動(dòng)作分類器，并與僅視頻分類器進(jìn)行比較。團(tuán)隊(duì)期望基于視頻的分類器能夠達(dá)到更高的動(dòng)作分類精度。然而，如果某些類別只能通過頭部運(yùn)動(dòng)信號正確分類，這意味著頭部運(yùn)動(dòng)確實(shí)比視頻有優(yōu)勢，至少在某些類別是這樣。

　　表1和表2展示了前五個(gè)頻繁動(dòng)作(動(dòng)詞)的分類結(jié)果。來自視頻的分類器平均具有更高的精度。然而，一些動(dòng)作剪輯僅根據(jù)頭部運(yùn)動(dòng)進(jìn)行正確分類(表2)。此外，團(tuán)隊(duì)通過平均兩個(gè)分類器的概率向量(即softmax函數(shù)后的輸出)添加了一個(gè)簡單的集成模型，并確認(rèn)了總體精度的提高(表1)。結(jié)果顯示了頭部運(yùn)動(dòng)信號優(yōu)于視頻。

　　第二個(gè)實(shí)驗(yàn)是看現(xiàn)有的視頻表示是否已經(jīng)捕捉到頭部運(yùn)動(dòng)信息，例如CNN在動(dòng)力學(xué)上預(yù)訓(xùn)練的功能。這個(gè)問題非常重要，因?yàn)槿绻跊]有頭部運(yùn)動(dòng)的情況下預(yù)訓(xùn)練的視頻表示已經(jīng)包含了可以從頭部運(yùn)動(dòng)中提取的所有信息，你將不能通過使用頭部運(yùn)動(dòng)向視頻表示添加任何附加值。為了回答這個(gè)問題，團(tuán)隊(duì)使用來自Kinetics或EPIC-KITCHENS的預(yù)訓(xùn)練權(quán)重初始化視頻CNN，并比較在兩種不同設(shè)置下匹配視頻和頭部運(yùn)動(dòng)之間對應(yīng)關(guān)系的SSL任務(wù)的準(zhǔn)確性。

　　在第一個(gè)設(shè)置中，研究人員使用凍結(jié)的預(yù)控制視頻CNN訓(xùn)練模型(圖1)，只更新頭部運(yùn)動(dòng)CNN權(quán)重。在第二個(gè)設(shè)置中，更新視頻和頭部運(yùn)動(dòng)CNN權(quán)重。團(tuán)隊(duì)比較了SSL對應(yīng)分類任務(wù)的ROC-AUC精度，包括未更新視頻CNN權(quán)重和更新視頻CNN權(quán)重兩種設(shè)置(表3)。

　　可以看到，經(jīng)過動(dòng)力學(xué)預(yù)訓(xùn)練的CNN和EPIC-Kitchen的性能都有所提高。團(tuán)隊(duì)解釋是，如果頭部運(yùn)動(dòng)信息已經(jīng)嵌入到預(yù)訓(xùn)練視頻表示中，更新視頻CNN權(quán)重將不會提供任何精度增益。性能的提高表明，仍然有空間通過利用頭部運(yùn)動(dòng)來改進(jìn)視頻表示。請注意，研究人員使用ROC-AUC而不是普通精度，因?yàn)榇蠖鄶?shù)對是負(fù)對應(yīng)，即始終分類為負(fù)可實(shí)現(xiàn)高普通精度。

　　在使用SSL任務(wù)(等式1)訓(xùn)練模型(圖1)之后，可以利用學(xué)習(xí)到的視頻CNN作為下游任務(wù)的通用視頻表示主干，如自中心的動(dòng)作分類。為了測試使用SSL學(xué)習(xí)的視頻表示的有效性，研究人員在學(xué)習(xí)的視頻表示的基礎(chǔ)上訓(xùn)練了一個(gè)多類邏輯回歸線性分類器。團(tuán)隊(duì)同時(shí)使用動(dòng)力學(xué)和EPIC-KITCHENS動(dòng)作分類的全監(jiān)督訓(xùn)練，在學(xué)習(xí)的表征之上訓(xùn)練相同的線性分類器，并比較結(jié)果(表4)。

　　使用SSL學(xué)習(xí)的表示的分類器達(dá)到了41.94%的準(zhǔn)確率。這高于動(dòng)力學(xué)表示的準(zhǔn)確度(27.01%)，低于EPIC-KITCHENS的完全監(jiān)督對應(yīng)值(55.61%)。盡管團(tuán)隊(duì)的SSL表示預(yù)訓(xùn)練因此是有效的，但它依然落后于充分訓(xùn)練。

　　接下來，團(tuán)隊(duì)希望看看使用所述SSL任務(wù)(等式1)學(xué)習(xí)的表示是否泛化到廚房的培訓(xùn)領(lǐng)域之外。為了測試這一點(diǎn)，其使用EPIC-KICTHEN提供的預(yù)訓(xùn)練SSL表示，在以狗為中心的活動(dòng)數(shù)據(jù)集上訓(xùn)練線性分類器。表5中顯示了結(jié)果�；趧�(dòng)力學(xué)表示的分類器的準(zhǔn)確率為46.98%，SSL表示的準(zhǔn)確率為54.21%。這表明了所述SSL方法在訓(xùn)練領(lǐng)域之外的有效性。

　　總的來說，研究人員通過利用多模態(tài)自我中心視頻流和IMU傳感器捕獲的頭部運(yùn)動(dòng)，探索了一種用于AR/VR視頻表示的自我監(jiān)督學(xué)習(xí)(SSL)。盡管視頻擁有更豐富的信息，但使用頭部運(yùn)動(dòng)信息仍有改進(jìn)視頻表示的空間。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng)，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng)，有力證明了其在全球市場的強(qiáng)大影響力。

服貿(mào)會高通展示開放創(chuàng)新生態(tài)，以5G、AI等技術(shù)促進(jìn)合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

新聞

敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

近日，中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個(gè)月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計(jì)算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

Meta研究將頭部運(yùn)動(dòng)數(shù)據(jù)作為監(jiān)控信號進(jìn)行AR/VR用戶行為識別

擴(kuò)展閱讀