Facebook發(fā)布AR/VR研究項目Ego4D

2021年10月20日 09:34:40 來源：映維網(wǎng)

　　隨著AR眼鏡和VR頭顯逐漸成為智能手機這樣的普及設(shè)備，能夠從第一人稱角度理解世界的人工智能可以開啟沉浸式體驗的新時代。想象一下，你的AR設(shè)備能夠在架子鼓課堂中準(zhǔn)確顯示如何握拿鼓槌，指導(dǎo)你根據(jù)食譜烹飪菜肴，幫助你找到丟失的鑰匙，或者通過面前的全息圖幫助你回憶過去……

　　為了構(gòu)建所述新技術(shù)，我們需要教導(dǎo)AI如同人類一樣從第一人稱角度理解世界并與其交互，亦即研究業(yè)界所說的自我中心認知。然而，今天的計算機視覺系統(tǒng)通常是利用數(shù)百萬張以第三人稱視角拍攝的照片和視頻進行學(xué)習(xí)。Facebook首席研究科學(xué)家克里斯汀·格勞曼 (Kristen Grauman) 表示：“下一代人工智能系統(tǒng)需要從一種完全不同的數(shù)據(jù)中學(xué)習(xí)：一種從事件中心視覺而不是邊線視覺展示世界的視頻。”

　　所以，F(xiàn)acebook AI日前發(fā)布了一個旨在解決自我為中心認知挑戰(zhàn)的長期研究項目：Ego4D。團隊組建了一個由9個國家的13所大學(xué)和實驗室組成的聯(lián)盟，并收集了2200多小時的第一人稱視頻，其中有700多名參與者講述了自己的日常生活。這極大地增加了當(dāng)前研究社區(qū)公開的自我中心認知數(shù)據(jù)規(guī)模，而且要比任何其他數(shù)據(jù)集多20倍(以小時為單位)。當(dāng)然，為了資助項目，F(xiàn)acebook向每一所參與的大學(xué)贈送了學(xué)術(shù)禮品。

　　Facebook AI同時與所述聯(lián)盟和Facebook Reality Labs Research(FRL Research)合作，開發(fā)了五個圍繞第一人稱視覺體驗視覺體驗的基準(zhǔn)挑戰(zhàn)。Ego4D的五個基準(zhǔn)是：情景記憶：什么時候發(fā)生?(“我把鑰匙放在哪里了?”) 預(yù)測：我接下來可能會做什么?(“等等，你已經(jīng)放鹽了。”) 手-物交互：我在做什么?(“教我如何打鼓。”) 視聽日記：誰在什么時候說了什么?(“課堂上的主要話題是什么?”) 社交互動：誰在和誰互動?(“幫助我在這家吵鬧的餐廳里聽清誰在跟我說話。”)

　　所述基準(zhǔn)測試將促進針對開發(fā)智能AI助手所必需的構(gòu)建模塊的研究。智能AI助手不僅可以在現(xiàn)實世界中實現(xiàn)理解和交互，同時可以在元宇宙中實現(xiàn)理解和交互。對于元宇宙，物理現(xiàn)實、增強現(xiàn)實和虛擬現(xiàn)實都集中在一個空間里面。

　　所述數(shù)據(jù)集將于今年11月向簽署Ego4D數(shù)據(jù)使用協(xié)議的研究人員公開。各大學(xué)團隊需要遵守各自的機構(gòu)研究條例。這個過程涉及制定符合機構(gòu)研究倫理委員會和/或?qū)彶槲瘑T會標(biāo)準(zhǔn)的研究方案，包括獲得參與者知情同意和/或視頻發(fā)布。

　　作為這項研究的補充，F(xiàn)RL的研究人員使用了Vuzix Blade智能眼鏡，并在研究實驗室的分階段環(huán)境中收集額外400小時的第一人稱視頻數(shù)據(jù)。當(dāng)然，團隊已經(jīng)獲得了視頻拍攝人員的書面同意。所述數(shù)據(jù)同樣會公布。

　　通過致力于開放式科學(xué)和研究，F(xiàn)acebook希望人工智能領(lǐng)域能夠更快地推動自我中心認知的進步。

　　1. 為什么自我中心認知很難

　　假設(shè)你第一次坐過山車。除了腎上腺素激增和一定的尖叫聲之外，乘坐人員和地面游客的視角完全不同。

　　左為地面游客的第三人稱視角，右為過山車乘坐人員的第一人稱視角

　　盡管我們能夠輕松理解第一人稱和第三人稱視角，但今天的人工智能并不具備這種理解水平。即便已經(jīng)通過數(shù)十萬個基于地面視角的過山車圖像或視頻進行訓(xùn)練，當(dāng)你將計算機視覺系統(tǒng)綁在過山車時，它可能依然不清楚自己在看什么。

　　格勞曼表示：“要令人工智能系統(tǒng)如同人類一樣與世界交互，人工智能領(lǐng)域需要發(fā)展到一種全新的第一人稱感知范式。這意味著教導(dǎo)人工智能在實時運動、交互和多傳感器背景下以人眼角度理解日常生活活動。”

　　左為站在邊線的游客的第三人稱視角，右為單車騎乘者的第一人稱視角

　　Ego4D項目的重點是為研究人員提供必要的工具和基準(zhǔn)，以促進研究并推動以自我中心認知的發(fā)展。

　　2. 解包真實世界的數(shù)據(jù)集

　　歷史證明，基準(zhǔn)和數(shù)據(jù)集是人工智能行業(yè)創(chuàng)新的關(guān)鍵催化劑。今天，幾乎可以識別圖像中的任何對象的計算機視覺系統(tǒng)都是建立在數(shù)據(jù)集和基準(zhǔn)之上，例如MNIST、COCO和ImageNet。所述數(shù)據(jù)集和基準(zhǔn)為研究人員提供了一個研究真實世界圖像的實驗臺。

　　但自我中心認知是一個全新的領(lǐng)域。我們不能用昨天的工具來實現(xiàn)明天的創(chuàng)新。Ego4D前所未有的規(guī)模和多樣性對于開創(chuàng)下一代智能AI系統(tǒng)至關(guān)重要。

　　為了建立第一個同類數(shù)據(jù)集，與Facebook合作的大學(xué)團隊向研究參與者分發(fā)了現(xiàn)成的頭戴式攝像頭和其他可穿戴傳感器，以便捕獲第一人稱的、未經(jīng)編輯的日常生活視頻。項目的重點是參與者從日常場景中捕獲視頻，比如購物、烹飪、邊玩游戲邊聊天，以及與家人和朋友進行其他團體活動。視頻采集捕獲了攝像頭佩戴者在特定環(huán)境中選擇注視的對象，以及攝像頭佩戴者如何從自我中心角度與人和物互動。到目前為止，攝像頭佩戴者已經(jīng)執(zhí)行了數(shù)百項活動，并與數(shù)百種不同的對象進行了交互。

　　EGO4D數(shù)據(jù)集中的參與者生活在英國、意大利、印度、日本、沙特阿拉伯、新加坡、哥倫比亞、盧旺達和美國，涉及不同年齡、職業(yè)和性別。與現(xiàn)有數(shù)據(jù)集相比，Ego4D數(shù)據(jù)集提供了更大的場景、人物和活動多樣性，這提升了為不同背景、種族、職業(yè)和年齡人群所訓(xùn)練的模型的適用性。

　　Facebook認為，全球表征對于自我中心認知研究至關(guān)重要，因為自我中心視覺體驗在不同的文化和地理背景下會有顯著差異。例如，如果將來有人在烹飪時穿戴AR眼鏡，并請求AI助手指導(dǎo)咖喱食譜，理想情況下的AI系統(tǒng)應(yīng)該能夠識別烹飪咖喱在不同地域的風(fēng)格和風(fēng)味。

　　3. 建立智能的自我中心認知

　　格勞曼指出：“與數(shù)據(jù)收集同樣重要的是確定正確的研究基準(zhǔn)或任務(wù)。這個項目的一個重要里程碑是提煉出自我中心智能認知到底意味著什么。在這種認知中，我們能夠回憶過去，預(yù)測未來，并與人和物互動。”Ego4D的五個挑戰(zhàn)性新基準(zhǔn)為研究人員提供了一個共同的目標(biāo)：為視覺和社交情景的真實感知進行基礎(chǔ)研究。

　　構(gòu)建所述基準(zhǔn)需要對自我中心數(shù)據(jù)集進行嚴格的注釋。對于這項大規(guī)模的注釋工作，F(xiàn)acebook AI利用訓(xùn)練有素的第三方注釋員來標(biāo)記在五項基準(zhǔn)任務(wù)中訓(xùn)練和評估算法所需的數(shù)據(jù)。這用到了Facebook的Human-AI loop(Halo)注釋平臺，而團隊為注釋任務(wù)編寫了具體的指南，并對工具本身進行了微調(diào)。研究人員收集了各種各樣的標(biāo)簽類型，如描述攝像頭佩戴者活動的密集文本敘述、對象和場景的時空注釋、以及多模態(tài)語音轉(zhuǎn)錄�？偟膩碚f，團隊轉(zhuǎn)錄了數(shù)千小時的視頻，收集了數(shù)百萬條注釋，而且采樣標(biāo)準(zhǔn)涵蓋了聯(lián)盟中所有合作伙伴的視頻數(shù)據(jù)，從而確保結(jié)果數(shù)據(jù)集的多樣性。所以當(dāng)今年Ego4D數(shù)據(jù)集發(fā)布后，研究社區(qū)可以立即使用相關(guān)數(shù)據(jù)集并以所述基準(zhǔn)構(gòu)建和測試自己的模型。

　　以下是基準(zhǔn)的分解，而這五個構(gòu)成要素可以成為構(gòu)建更有用AI助手、機器人和其他未來創(chuàng)新的基礎(chǔ)：情景記憶：什么時候發(fā)生的?人工智能可以通過檢索過去的自我中心視頻中的關(guān)鍵時刻來回答自由形式的問題，并擴展你的個人記憶。要做到這一點，模型必須在過去的視頻幀中定位對查詢的響應(yīng)，并且在相關(guān)的情況下進一步提供環(huán)境中的三維空間方向。所以，如果你準(zhǔn)備和孩子一起玩耍，你可以詢問AI助手或家用機器人這樣一個問題：“我把我孩子最喜歡的泰迪熊放在哪里了?” 預(yù)測：我接下來要做什么?AI可以理解攝像頭佩戴者的行為將如何影響未來世界的狀態(tài)，比如下一步會移動到哪里，可能會接觸到什么物體，或者接下來可能會參與什么活動。預(yù)測行動不僅需要認識到已經(jīng)發(fā)生了什么，同時需要展望未來，預(yù)測下一步行動。這將允許未來的人工智能系統(tǒng)提供有用的指導(dǎo)。例如，在你準(zhǔn)備拿起鹽瓶的時候，AI助手可以向設(shè)備發(fā)送這樣一個通知：“等等，你已經(jīng)放鹽了。” 手-物交互：我在做什么，如何做?學(xué)習(xí)手如何與物體互動對于指導(dǎo)日常任務(wù)至關(guān)重要。人工智能必須檢測第一人稱人機交互，識別抓取，并檢測對象狀態(tài)變化。這一推動力也是由機器人學(xué)習(xí)推動的，機器人可以通過視頻中觀察到的人的經(jīng)驗來獲得經(jīng)驗。因此，當(dāng)你烹飪食譜時，你的AI助手可以指導(dǎo)你需要哪些配料以及你首先需要做什么，了解你已經(jīng)做了什么，并指導(dǎo)你完成每一步。視聽日記：誰在什么時候說了什么?人類可以通過聲音來理解世界，并識別誰說了什么，何時說了什么。未來的人工智能同樣可以。對于一堂重要的課程，但你由于保姆給你發(fā)短信而造成分心，你可以稍后向AI詢問：“在教授發(fā)回考試試卷后，課堂討論的主要話題是什么?” 社交互動：我們是如何進行社交互動的?除了識別視覺和聲音線索，理解社交互動是任何智能AI助手的核心。一個具有社會智能的AI都需要理解誰在和誰說話，誰在關(guān)注誰。這樣，下次你在晚宴時AI就能幫助你在吵鬧環(huán)境中聽清對方說了什么。

　　4. Ego4D的下一步

　　Facebook強調(diào)，目前只是觸及了自我中心認知的皮毛。對于Ego4D項目，F(xiàn)acebook AI、FRL和大學(xué)聯(lián)盟希望為學(xué)術(shù)界和行業(yè)專家打造了一條全新的道路，以幫助大家構(gòu)建更智能、更靈活和更具交互性的計算機視覺系統(tǒng)，而今天的研究將對我們未來的生活、工作和娛樂方式產(chǎn)生積極影響。

　　隨著人工智能越加深入理解人類的日常生活方式，它將能開始以前所未有的方式對體驗進行情境化和個性化。

　　格勞曼表示：“Ego4D使得人工智能有可能獲得植根于物理世界和社會世界的知識，并通過生活其中的第一人稱視角來感知認知情景。人工智能不僅可以更好地理解周圍的世界，并有朝一日能夠在個人層面實現(xiàn)個性化體驗：它可以知道你最喜歡的咖啡杯，或者為你下一次的家庭旅行提供指導(dǎo)。我們正在積極研究能夠做到這一點的AI助手啟發(fā)式研究原型。”

　　有了Ego4D基準(zhǔn)支持的人工智能，并在相關(guān)數(shù)據(jù)集進行過訓(xùn)練，未來的AI助手可以以獨特而有意義的方式提供價值。通過增強記憶，AI助手可以幫助你回憶起最近與同事談話中的關(guān)鍵信息，找到你女兒把自行車頭盔放在了哪里，又或者是實時提供補充技能，例如指導(dǎo)你拼接宜家家具或按照新食譜做飯。Facebook表示：“我們相信，從這一系列研究中獲得的價值，以及行業(yè)不斷取得的進步將推動我們走向這一未來現(xiàn)實。”

　　相關(guān)論文：Ego4D: Around the World in 3,000 Hours of Egocentric Video

　　值得一提的是，上述的大學(xué)聯(lián)盟將在今年年底發(fā)布用于授權(quán)協(xié)議所允許的用例的相關(guān)數(shù)據(jù)。

　　到明年初，研究人員可以關(guān)注Ego4D的研究挑戰(zhàn)，而世界各地的人工智能專家可以教導(dǎo)機器以第一人稱視角理解我們?nèi)粘Ｉ罨顒印?/p>

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信