Facebook和NUS、MIT等高校聯合推出3000小時的第一視角影片數據集Ego4D
- 2021 年 10 月 15 日
- AI
圖1. 左:同一場景在第一視角和第三視角下;右:第一視角影片採集設備
本文摘要翻譯自NUS新聞://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/
為此,Facebook聯合新加坡國立大學 (NUS) 、MIT等世界各地的13所大學組成了一個學術聯盟,致力於開展一個長期項目——Ego4D(第一視角的 4D 實時感知 )。
Ego4D鏈接://ego4d-data.org/
來自NUS研究團隊的Principal Investigator(主要負責人),助理教授Mike壽政說:「在過去十年里,我們見證了AI在理解影像方面的變革,這是建立在 ImageNet 等數據集所奠定的基礎上的。類似的,我相信我們的 Ego4D 數據集,將為第一視角的影片研究打好基礎,從而推動智慧感知在 AR 和機器人方面的快速發展。」
圖 2. Ego4D 是目前最大的第一視角的日常活動影片數據集
大多數AI系統需要大量數據進行訓練,現有的大規模影片數據集通常以第三視角為主;而現有的第一視角數據集在規模、多樣性和複雜性上都很有限。因此,該學術聯盟推出了 Ego4D 數據集:
● 大規模:研究人員分發頭戴式相機或者AR眼鏡給數據採集者,從而收集了累計3,000 小時的、日常活動中的第一視角影片;
● In-the-wild:包含了人們的日常生活的數百種不同活動,記錄了相機佩戴者在關注什麼,用手和面前的物體做什麼,以及他們是如何與其他人互動的;
● 多樣性:涵蓋全球 73 個地點、9個國家,700 多名不同背景、種族、職業、年齡的數據採集者,囊括不同的文化和地理差異;
● 抽好的特徵:所有影片,均有預先抽好的SlowFast特徵,方便大家進行實驗;
● 授權公開:這些數據將於 2021 年 11 月公開,影片中的所有可見人臉和可聽懂的語音均已獲得參與者的授權。
圖3. 通過採集的第一視角影片數據,Ego4D團隊可以開發AI模型來解決新的任務
與數據收集同樣重要的是,定義正確的任務,進行嚴格的人工標註,來引導新技術的研發。
為此,Ego4D 學術聯盟聯合構建了五個全新的、具有挑戰性的任務:
(1) 情景記憶:什麼時候發生了什麼?如圖3A, 告訴我錢包最近一次出現的位置。
(2) 預測未來:我接下來要做什麼?如圖3B, 他即將跳起來抓住單杠。
(3) 手與物體交互:我在做什麼以及如何做?如圖3C, 告訴我下一步的操作。
(4) 視覺+聽覺:多人場景下,誰在什麼時候說了什麼?如圖3D, 生成會議內容的總結。
(5) 社交交互:人與人如何交互?如圖3D, 我注視著他,而他正在對我說話。
「我們NUS研究團隊主要為其中兩個關鍵任務開發模型:一是,利用聲音和視覺線索幫助AI識別「誰在什麼時候說了什麼;二是,開發具有社交智慧的 AI,檢測當下誰在對誰說話,誰在關注誰。」同樣來自NUS團隊的Co-PI李海洲教授如是說。
有第一視角感知能力的AI,將賦能AR眼鏡、智慧機器人等等同樣是第一視角的設備,將在我們的日常生活和工作中發揮更大作用。想像一下:在對著新菜譜做菜時,不必再來來回回地看菜譜,你的AR 眼鏡就可以實時地同步指導你執行每個步驟;對於有阿爾茨海默症等健康問題的人,AR眼鏡可以幫助他們回憶錢包放在哪裡了。
Ego4D數據集只是起點,研發第一視角AI技術,進而賦能智慧機器人、AR眼鏡,將在不遠的將來,改變我們的生活、工作、娛樂方式,帶給我們前所未有的、虛擬與現實交融的體驗。
雷鋒網