CVPR 2022數據集匯總｜包含目標檢測、多模態等方向

2022 年 4 月 18 日
筆記
CV技術指南

前言本文收集匯總了目前CVPR 2022已放出的一些數據集資源。

轉載自極市平台

歡迎關注公眾號CV技術指南，專註於電腦視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

M5Product Dataset

論文地址：//arxiv.org/abs/2109.04275

數據集地址：//xiaodongsuper.github.io/M5Product_dataset/index.html

M5Product 數據集是一個大規模的多模態預訓練數據集，具有針對電子產品的粗粒度和細粒度注釋。

600 萬個多模態樣本、5k個屬性和2400 萬個值
5 種模式-影像文本表影片音頻
600 萬個類別注釋，包含6k個類別
廣泛的數據源（100 萬商戶提供）

Ego4D

論文地址：//arxiv.org/abs/2110.07058

數據集地址：//ego4d-data.org/

在全球 74 個地點和 9 個國家/地區收集的大規模、以自我為中心的數據集和基準套件，包含超過 3,670 小時的日常生活活動影片。使用七種不同的現成頭戴式攝像機捕獲數據：GoPro、Vuzix Blade、Pupil Labs、ZShades、OR-DRO EP6、iVue Rincon 1080 和 Weeview。除了影片，部分 Ego4D 還提供其他數據模式：3D 掃描、音頻、凝視、立體、多個同步的可穿戴相機和文本敘述。

Daily Multi-Spectral Satellite Dataset

論文鏈接：//arxiv.org/pdf/2203.12560.pdf

數據集地址：//mediatum.ub.tum.de/1650201

DynamicEarthNet 數據集包含每日 Planet Fusion 影像，以及兩年內全球 75 個地區的每月土地覆蓋類別。七個土地覆蓋類別以時間一致的方式手動注釋。還提供了 Sentinel 2 影像。該數據集是第一個大規模的多類和多時態變化檢測基準，我們希望它能促進地球觀測和電腦視覺領域的多時態研究新浪潮。

VCSL (Video Copy Segment Localization) dataset

論文地址：//arxiv.org/abs/2203.02654

數據集地址：//github.com/alipay/VCSL/tree/main/data

與現有的受影片級標註或小規模限制的複製檢測數據集相比，VCSL 不僅具有兩個數量級的片段級標記數據，16 萬個真實影片副本對包含超過 28 萬個本地複製片段對，而且涵蓋各種影片類別和廣泛的影片時長。每個收集的影片對中的所有複製片段都是手動提取的，並附有精確注釋的開始和結束時間戳。

Rope3D

論文地址：//arxiv.org/abs/2203.13608

數據集地址：//thudair.baai.ac.cn/rope

Rope3D目標檢測數據集是首個同時具有影像和點雲3D聯合標註的大規模、多視角的路側數據集，共50009幀影像數據以及對應的2D&3D標註結果。基於該數據集，可以進行路端單目3D檢測任務的研究。

EDS 數據集

數據集地址：//github.com/DIG-Beihang/PSN

EDS 數據集針對由機器硬體參數引起的難以察覺的域間偏移問題研究，包含了來自 3 台不同 X 光機器的 14219 張圖片, 其中 10 類物品, 共計 31655 個目標實例，均由專業標註人員進行標註。

FineDiving

論文地址：//arxiv.org/pdf/2204.03646.pdf

數據集地址：//github.com/xujinglin/FineDiving

本數據集收集了奧運會、世界盃、世錦賽以及歐錦賽的跳水項目比賽影片。每個比賽影片都提供了豐富的內容，包括所有運動員的跳水記錄、不同視角的慢速回放等。

我們構建了一個由語義和時間結構組織的細粒度影片數據集，其中每個結構都包含兩級注釋。

對於語義結構，動作級標籤描述了運動員的動作類型，步驟級標籤描述了過程中連續步驟的子動作類型，其中每個動作過程中的相鄰步驟屬於不同的子動作類型。子動作類型的組合產生動作類型。在時間結構中，動作級標籤定位運動員執行的完整動作實例的時間邊界。在此注釋過程中，我們丟棄所有不完整的動作實例並過濾掉慢速播放。步驟級標籤是動作過程中連續步驟的起始幀。

PIAA 資料庫

論文地址：//arxiv.org/abs/2203.16754

數據集地址：//cv-datasets.institutecv.com/#/data-sets

個性化影像美學評估 (PIAA) 由於其高度主觀性而具有挑戰性。人們的審美取決於多種因素，包括形象特徵和主體性格。現有的 PIAA 資料庫在注釋多樣性方面，特別是在學科方面受到限制，已不能滿足日益增長的 PIAA 研究需求。為了解決這一難題，我們對個性化影像美學進行了迄今為止最全面的主觀研究，並引入了一個新的具有豐富屬性的個性化影像美學資料庫（PARA），該資料庫由 438 個主題的 31,220 張帶有注釋的影像組成。PARA 具有豐富的標註，包括 9 個面向影像的客觀屬性和 4 個面向人的主觀屬性。