業界 | 美圖推出業界最大規模教程類行為數據集 | CVPR 2019
- 2019 年 11 月 1 日
- 筆記
AI 科技評論按,電腦視覺高峰會 CVPR 2019 即將於 6 月在美國長灘召開,今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。隨著會議臨近,各大公司紛紛揭曉自家被收錄論文。
美圖公司社交產品事業群視覺演算法組與清華大學自動化系智慧視覺實驗室合作,推出了業界最大規模教程類行為數據集 COIN(COmprehensive INstructional video analysis),相關論文(COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis)已被 CVPR 2019 錄用。

COIN 數據集概覽
教程類行為影片(Instructional Video)可以幫助使用者獲取完成各種行為任務的知識,但是現有教程類行為影片數據集在規模性和多樣性上都存在較大的局限性,難以應用於現實生活中的複雜場景。為此,美圖公司社交產品事業群視覺演算法組與清華大學自動化系智慧視覺實驗室合作提出了名為 COIN 的大規模教程類數據集,用於更全面的教程類行為影片分析。
COIN 數據集在標註結構上採用分層的組織結構,第一層是領域(Domain)、第二層是任務(Task)、第三層是步驟(Step),其中包含與日常生活相關的 11827 個影片,涉及交通工具、電器維修和傢具裝修等 12 個領域的 180 個任務,共 778 個步驟。

COIN 數據集的分層結構
COIN 數據集的設計人員還開發了創新性的標註工具,可以更高效更準確地標註影片行為的步驟資訊。此外,為了給數據集提供更準確的基準指標,數據集開發人員還使用了 SSN、R-C3D 等評價方法對 COIN 數據集進行了測評。

COIN 數據集的步驟定位準確率分析
論文地址:https://arxiv.org/abs/1903.02874
GitHub地址:https://coin-dataset.github.io