上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗(yàn)全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊(duì)煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機(jī)型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團(tuán)喜歡“追風(fēng)口”快手電商新增近800個(gè)“0元開店”類目,推出多項(xiàng)新商入駐權(quán)益年內(nèi)狂攬五項(xiàng)第一,“字節(jié)系大模型”何以后發(fā)先至?
  • 首頁 > 網(wǎng)絡(luò)安全頻道 > 安防監(jiān)控

    Meta研究將頭部運(yùn)動(dòng)數(shù)據(jù)作為監(jiān)控信號進(jìn)行AR/VR用戶行為識別

    2021年12月14日 11:57:14   來源:映維網(wǎng)

      隨著Oculus和HoloLens等頭戴設(shè)備的出現(xiàn),AR/VR技術(shù)正在開始蓬勃發(fā)展。就像過去幾十年的電腦智能手機(jī)一樣,AR/VR設(shè)備有望從根本上改變我們的日常生活和社會。為了實(shí)現(xiàn)這個(gè)未來,需要解決的一個(gè)基本挑戰(zhàn)是以自中心(egocentric)動(dòng)作識別,亦即通過頭戴式攝像頭實(shí)現(xiàn)對用戶活動(dòng)的機(jī)器理解。

      隨著現(xiàn)代計(jì)算機(jī)視覺技術(shù)的進(jìn)步,現(xiàn)在人們熟悉的動(dòng)作識別方法是使用數(shù)百萬手動(dòng)分類為自中心動(dòng)作的視頻片段,并以有監(jiān)督的方式訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)。然而,這種方法至少有兩個(gè)局限性。第一,注釋足夠大的視頻剪輯來訓(xùn)練CNN非常昂貴;第二,即使擁有無限的預(yù)算,我們都無法涵蓋人類所有的潛在動(dòng)作。

      要解決所述限制,一個(gè)富有前景方法是使用自監(jiān)督學(xué)習(xí)(SSL)來訓(xùn)練CNN,而所述領(lǐng)域已經(jīng)取得了快速的進(jìn)展。SSL不依賴人工注釋,而是利用數(shù)據(jù)中存在的固有屬性來訓(xùn)練各種下游任務(wù)的表示,例如對數(shù)據(jù)增強(qiáng)的不變性、數(shù)據(jù)的多模態(tài)等等。受其啟發(fā),Meta和印第安納大學(xué)的團(tuán)隊(duì)在名為《How You Move Your Head Tells What You Do: Self-supervised Video Representation Learning with Egocentric Cameras and IMU Sensors》的論文中嘗試將頭部運(yùn)動(dòng)數(shù)據(jù)作為自我監(jiān)控信號來進(jìn)行自中心行為識別。

      為了利用頭部運(yùn)動(dòng)數(shù)據(jù)的潛力并實(shí)現(xiàn)自中心視頻表示的SSL,團(tuán)隊(duì)需要回答幾個(gè)基本問題:頭部運(yùn)動(dòng)數(shù)據(jù)是否具有自中心視頻表示無法捕獲的唯一信息?如果是這樣,利用頭部運(yùn)動(dòng)中的有用信號進(jìn)行自中心視頻表征學(xué)習(xí)的有效方法是什么?最后,學(xué)習(xí)到的表示是否比在僅視頻數(shù)據(jù)上使用SSL進(jìn)行訓(xùn)練的表示更有效?

      在研究中,Meta和印第安納大學(xué)的團(tuán)隊(duì)系統(tǒng)地回答了所述研究問題。實(shí)驗(yàn)表明,頭部運(yùn)動(dòng)可以提供額外的優(yōu)勢,即使是完全監(jiān)督學(xué)習(xí)都是如此。

      然后,研究人員設(shè)計(jì)了一種簡單但有效的SSL方法,通過根據(jù)視頻對和頭部運(yùn)動(dòng)數(shù)據(jù)的對應(yīng)關(guān)系進(jìn)行分類來學(xué)習(xí)以自中心的視頻表示。團(tuán)隊(duì)使用這種方法在EPIC-KITCHENS數(shù)據(jù)集訓(xùn)練了相關(guān)模型,并展示了對廚房任務(wù)操作進(jìn)行分類的結(jié)果表示的有效性。另外,研究人員同時(shí)利用相同的表征來識別由狗狗頭部運(yùn)動(dòng)引起的自中心動(dòng)作,從而證明學(xué)習(xí)到的表征可以泛化到訓(xùn)練領(lǐng)域之外。

      SSLtask formulation

      受標(biāo)記數(shù)據(jù)集限制的啟發(fā),團(tuán)隊(duì)希望針對AR/VR學(xué)習(xí)使用SSL的自中心視頻表示,特別是利用AR/VR可用的多模態(tài)數(shù)據(jù),亦即由帶有IMU傳感器的頭戴式攝像頭捕獲的以自中心視頻和頭部運(yùn)動(dòng)。SSL通常利用代理任務(wù)來訓(xùn)練表示,無需人工注釋。例如,可以通過最大化相同圖像的兩個(gè)不同增強(qiáng)視圖之間的一致性來學(xué)習(xí)具有對比損失的圖像表示。

      換句話說,給定一對隨機(jī)增強(qiáng)的圖像,如果它們來自同一圖像,則傾向于認(rèn)為它們的表示相似,而不是來自不同的圖像。對多模態(tài)情況的擴(kuò)展是對兩種模態(tài)(如音頻和視頻)之間的對應(yīng)關(guān)系進(jìn)行訓(xùn)練。受所述視聽SSL框架的啟發(fā),研究人員提出了一個(gè)二進(jìn)制分類任務(wù),以匹配頭戴式攝像頭捕獲的自中心視頻和頭部運(yùn)動(dòng)IMU信號之間的對應(yīng)關(guān)系,從而學(xué)習(xí)AR/VR中的自中心視頻表示。

      SSL loss

      訓(xùn)練表示使用上述SSL任務(wù),研究人員隨機(jī)抽取一批與頭戴式IMU傳感器捕獲的頭部運(yùn)動(dòng)信號同步的短視頻片段(在實(shí)驗(yàn)中為2秒)。然后,提取視頻和IMU的特征向量,計(jì)算兩兩相似性,并只有當(dāng)它們來自同一剪輯時(shí)才傾向于認(rèn)為相似性高。具體地說,給定來自CNN的N對視頻和頭部運(yùn)動(dòng)特征向量,最小化以下對比損失函數(shù)L。

      在SSL訓(xùn)練之后,可以使用視頻表示vi(如果需要,還可以使用頭部運(yùn)動(dòng)表示mi)來執(zhí)行動(dòng)作識別等下游任務(wù)。

      團(tuán)隊(duì)使用EPIC-KITCHENS數(shù)據(jù)集進(jìn)行所有實(shí)驗(yàn),但最后一個(gè)除外。最后一個(gè)實(shí)驗(yàn)使用了以狗為中心的活動(dòng)數(shù)據(jù)集,以展示所述方法在訓(xùn)練數(shù)據(jù)集之外的泛化能力。對于EPIC-KITCHENS數(shù)據(jù)集,選擇伴隨頭部(camera)運(yùn)動(dòng)的相應(yīng)IMU信號的視頻剪輯,并根據(jù)視頻ID對train:validation:test=30044:3032:4379進(jìn)行數(shù)據(jù)分割,分割中沒有重疊的主題。這種分割有65個(gè)獨(dú)特的測試動(dòng)詞,這意味著隨機(jī)猜測基線可以達(dá)到1.5%的準(zhǔn)確率。然而,由于動(dòng)作分布有偏差,主要?jiǎng)幼?take)占測試集的27%。

      對于使用以狗為中心的活動(dòng)數(shù)據(jù)集的實(shí)驗(yàn),研究人員選擇與頭部運(yùn)動(dòng)相關(guān)的活動(dòng)類別:行走、搖晃、向左看和向右看。這四個(gè)動(dòng)作幾乎是平衡的,而大多數(shù)行走類占據(jù)了數(shù)據(jù)集的30%。這個(gè)數(shù)據(jù)集很小(總共216個(gè)視頻剪輯,只選擇了86個(gè)),所以團(tuán)隊(duì)根據(jù)狗的ID分成了一半和一半,并進(jìn)行了2倍交叉驗(yàn)證,同時(shí)報(bào)告了平均準(zhǔn)確度。

      為了訓(xùn)練等式1中描述的SSL丟失表示,研究人員使用SlowFast50作為視頻的主干CNN表示,VGG16表示頭部運(yùn)動(dòng)IMU信號。視頻CNN的時(shí)空輸入大小為256×256×48,分別對應(yīng)于寬度、高度和幀大小(幀速率為24fps)。原始IMU片段用396×6的矩陣表示,分別對應(yīng)于時(shí)間(頻率為198Hz)和通道(加速度計(jì)和陀螺儀的XYZ)。

      團(tuán)隊(duì)的目標(biāo)是利用頭部運(yùn)動(dòng)來學(xué)習(xí)更好的自中心動(dòng)作識別視頻表示。然而,由于視頻是一種具有高保真度信息的豐富模式,是否還有空間讓頭部運(yùn)動(dòng)信號改善動(dòng)作識別的視頻表示?

      為了回答這個(gè)問題,研究人員進(jìn)行了兩個(gè)初步實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是從頭部運(yùn)動(dòng)信號中訓(xùn)練動(dòng)作分類器,并與僅視頻分類器進(jìn)行比較。團(tuán)隊(duì)期望基于視頻的分類器能夠達(dá)到更高的動(dòng)作分類精度。然而,如果某些類別只能通過頭部運(yùn)動(dòng)信號正確分類,這意味著頭部運(yùn)動(dòng)確實(shí)比視頻有優(yōu)勢,至少在某些類別是這樣。

      表1和表2展示了前五個(gè)頻繁動(dòng)作(動(dòng)詞)的分類結(jié)果。來自視頻的分類器平均具有更高的精度。然而,一些動(dòng)作剪輯僅根據(jù)頭部運(yùn)動(dòng)進(jìn)行正確分類(表2)。此外,團(tuán)隊(duì)通過平均兩個(gè)分類器的概率向量(即softmax函數(shù)后的輸出)添加了一個(gè)簡單的集成模型,并確認(rèn)了總體精度的提高(表1)。結(jié)果顯示了頭部運(yùn)動(dòng)信號優(yōu)于視頻。

      第二個(gè)實(shí)驗(yàn)是看現(xiàn)有的視頻表示是否已經(jīng)捕捉到頭部運(yùn)動(dòng)信息,例如CNN在動(dòng)力學(xué)上預(yù)訓(xùn)練的功能。這個(gè)問題非常重要,因?yàn)槿绻跊]有頭部運(yùn)動(dòng)的情況下預(yù)訓(xùn)練的視頻表示已經(jīng)包含了可以從頭部運(yùn)動(dòng)中提取的所有信息,你將不能通過使用頭部運(yùn)動(dòng)向視頻表示添加任何附加值。為了回答這個(gè)問題,團(tuán)隊(duì)使用來自Kinetics或EPIC-KITCHENS的預(yù)訓(xùn)練權(quán)重初始化視頻CNN,并比較在兩種不同設(shè)置下匹配視頻和頭部運(yùn)動(dòng)之間對應(yīng)關(guān)系的SSL任務(wù)的準(zhǔn)確性。

      在第一個(gè)設(shè)置中,研究人員使用凍結(jié)的預(yù)控制視頻CNN訓(xùn)練模型(圖1),只更新頭部運(yùn)動(dòng)CNN權(quán)重。在第二個(gè)設(shè)置中,更新視頻和頭部運(yùn)動(dòng)CNN權(quán)重。團(tuán)隊(duì)比較了SSL對應(yīng)分類任務(wù)的ROC-AUC精度,包括未更新視頻CNN權(quán)重和更新視頻CNN權(quán)重兩種設(shè)置(表3)。

      可以看到,經(jīng)過動(dòng)力學(xué)預(yù)訓(xùn)練的CNN和EPIC-Kitchen的性能都有所提高。團(tuán)隊(duì)解釋是,如果頭部運(yùn)動(dòng)信息已經(jīng)嵌入到預(yù)訓(xùn)練視頻表示中,更新視頻CNN權(quán)重將不會提供任何精度增益。性能的提高表明,仍然有空間通過利用頭部運(yùn)動(dòng)來改進(jìn)視頻表示。請注意,研究人員使用ROC-AUC而不是普通精度,因?yàn)榇蠖鄶?shù)對是負(fù)對應(yīng),即始終分類為負(fù)可實(shí)現(xiàn)高普通精度。

      在使用SSL任務(wù)(等式1)訓(xùn)練模型(圖1)之后,可以利用學(xué)習(xí)到的視頻CNN作為下游任務(wù)的通用視頻表示主干,如自中心的動(dòng)作分類。為了測試使用SSL學(xué)習(xí)的視頻表示的有效性,研究人員在學(xué)習(xí)的視頻表示的基礎(chǔ)上訓(xùn)練了一個(gè)多類邏輯回歸線性分類器。團(tuán)隊(duì)同時(shí)使用動(dòng)力學(xué)和EPIC-KITCHENS動(dòng)作分類的全監(jiān)督訓(xùn)練,在學(xué)習(xí)的表征之上訓(xùn)練相同的線性分類器,并比較結(jié)果(表4)。

      使用SSL學(xué)習(xí)的表示的分類器達(dá)到了41.94%的準(zhǔn)確率。這高于動(dòng)力學(xué)表示的準(zhǔn)確度(27.01%),低于EPIC-KITCHENS的完全監(jiān)督對應(yīng)值(55.61%)。盡管團(tuán)隊(duì)的SSL表示預(yù)訓(xùn)練因此是有效的,但它依然落后于充分訓(xùn)練。

      接下來,團(tuán)隊(duì)希望看看使用所述SSL任務(wù)(等式1)學(xué)習(xí)的表示是否泛化到廚房的培訓(xùn)領(lǐng)域之外。為了測試這一點(diǎn),其使用EPIC-KICTHEN提供的預(yù)訓(xùn)練SSL表示,在以狗為中心的活動(dòng)數(shù)據(jù)集上訓(xùn)練線性分類器。表5中顯示了結(jié)果;趧(dòng)力學(xué)表示的分類器的準(zhǔn)確率為46.98%,SSL表示的準(zhǔn)確率為54.21%。這表明了所述SSL方法在訓(xùn)練領(lǐng)域之外的有效性。

      總的來說,研究人員通過利用多模態(tài)自我中心視頻流和IMU傳感器捕獲的頭部運(yùn)動(dòng),探索了一種用于AR/VR視頻表示的自我監(jiān)督學(xué)習(xí)(SSL)。盡管視頻擁有更豐富的信息,但使用頭部運(yùn)動(dòng)信息仍有改進(jìn)視頻表示的空間。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。