CVPR 2022數據集匯總|包含目標檢測、多模態等方向
前言 本文收集匯總了目前CVPR 2022已放出的一些數據集資源。
轉載自極市平台
歡迎關注公眾號CV技術指南,專註於電腦視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
M5Product Dataset
論文地址://arxiv.org/abs/2109.04275
數據集地址://xiaodongsuper.github.io/M5Product_dataset/index.html
M5Product 數據集是一個大規模的多模態預訓練數據集,具有針對電子產品的粗粒度和細粒度注釋。
- 600 萬個多模態樣本、5k個屬性和2400 萬個值
- 5 種模式-影像 文本 表 影片 音頻
- 600 萬個類別注釋,包含6k個類別
- 廣泛的數據源(100 萬商戶提供)
Ego4D
論文地址://arxiv.org/abs/2110.07058
數據集地址://ego4d-data.org/
在全球 74 個地點和 9 個國家/地區收集的大規模、以自我為中心的數據集和基準套件,包含超過 3,670 小時的日常生活活動影片。使用七種不同的現成頭戴式攝像機捕獲數據:GoPro、Vuzix Blade、Pupil Labs、ZShades、OR-DRO EP6、iVue Rincon 1080 和 Weeview。除了影片,部分 Ego4D 還提供其他數據模式:3D 掃描、音頻、凝視、立體、多個同步的可穿戴相機和文本敘述。
Daily Multi-Spectral Satellite Dataset
論文鏈接://arxiv.org/pdf/2203.12560.pdf
數據集地址://mediatum.ub.tum.de/1650201
DynamicEarthNet 數據集包含每日 Planet Fusion 影像,以及兩年內全球 75 個地區的每月土地覆蓋類別。七個土地覆蓋類別以時間一致的方式手動注釋。還提供了 Sentinel 2 影像。該數據集是第一個大規模的多類和多時態變化檢測基準,我們希望它能促進地球觀測和電腦視覺領域的多時態研究新浪潮。
VCSL (Video Copy Segment Localization) dataset
論文地址://arxiv.org/abs/2203.02654
數據集地址://github.com/alipay/VCSL/tree/main/data
與現有的受影片級標註或小規模限制的複製檢測數據集相比,VCSL 不僅具有兩個數量級的片段級標記數據,16 萬個真實影片副本對包含超過 28 萬個本地複製片段對,而且涵蓋各種影片類別和廣泛的影片時長。每個收集的影片對中的所有複製片段都是手動提取的,並附有精確注釋的開始和結束時間戳。
Rope3D
論文地址://arxiv.org/abs/2203.13608
數據集地址://thudair.baai.ac.cn/rope
Rope3D目標檢測數據集是首個同時具有影像和點雲3D聯合標註的大規模、多視角的路側數據集,共50009幀影像數據以及對應的2D&3D標註結果。基於該數據集,可以進行路端單目3D檢測任務的研究。
EDS 數據集
數據集地址://github.com/DIG-Beihang/PSN
EDS 數據集針對由機器硬體參數引起的難以察覺的域間偏移問題研究,包含了來自 3 台不同 X 光機器的 14219 張圖片, 其中 10 類物品, 共計 31655 個目標實例,均由專業標註人員進行標註。
FineDiving
論文地址://arxiv.org/pdf/2204.03646.pdf
數據集地址://github.com/xujinglin/FineDiving
本數據集收集了奧運會、世界盃、世錦賽以及歐錦賽的跳水項目比賽影片。每個比賽影片都提供了豐富的內容,包括所有運動員的跳水記錄、不同視角的慢速回放等。
我們構建了一個由語義和時間結構組織的細粒度影片數據集,其中每個結構都包含兩級注釋。
對於語義結構,動作級標籤描述了運動員的動作類型,步驟級標籤描述了過程中連續步驟的子動作類型,其中每個動作過程中的相鄰步驟屬於不同的子動作類型。子動作類型的組合產生動作類型。在時間結構中,動作級標籤定位運動員執行的完整動作實例的時間邊界。在此注釋過程中,我們丟棄所有不完整的動作實例並過濾掉慢速播放。步驟級標籤是動作過程中連續步驟的起始幀。
PIAA 資料庫
論文地址://arxiv.org/abs/2203.16754
數據集地址://cv-datasets.institutecv.com/#/data-sets
個性化影像美學評估 (PIAA) 由於其高度主觀性而具有挑戰性。人們的審美取決於多種因素,包括形象特徵和主體性格。現有的 PIAA 資料庫在注釋多樣性方面,特別是在學科方面受到限制,已不能滿足日益增長的 PIAA 研究需求。為了解決這一難題,我們對個性化影像美學進行了迄今為止最全面的主觀研究,並引入了一個新的具有豐富屬性的個性化影像美學資料庫(PARA),該資料庫由 438 個主題的 31,220 張帶有注釋的影像組成。PARA 具有豐富的標註,包括 9 個面向影像的客觀屬性和 4 個面向人的主觀屬性。
歡迎關注公眾號CV技術指南,專註於電腦視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
CV技術指南創建了一個免費的知識星球。關注公眾號添加編輯的微訊號可邀請加入。
其它文章
Attention Mechanism in Computer Vision
從零搭建Pytorch模型教程(三)搭建Transformer網路
StyleGAN大匯總 | 全面了解SOTA方法、架構新進展
目標檢測、實例分割、多目標跟蹤的Anchor-free應用方法總結