250,000輛汽車–用於機器學習的十大免費車輛影像和影片數據集
- 2020 年 3 月 4 日
- 筆記

作者 | Limarc Ambalina
來源 | lionbridge.ai
編輯 | 程式碼醫生團隊
隨著特斯拉自動駕駛汽車的興起以及GoogleWaymo等項目的興起,自動駕駛汽車行業似乎每年都在增長。無人駕駛汽車是電腦視覺的一個重要領域,具有眾多應用程式,並且具有巨大的獲利潛力。
與所有電腦視覺演算法一樣,自動駕駛汽車需要訓練有素的影像數據。通常很難獲得大量的高品質影像或找到信譽良好的影像注釋服務。手動注釋成千上萬張影像更加困難,有時效率低下。
在哪裡可以找到免費影像和影片數據集以進行自動駕駛汽車開發?
以下是10個開放影像和影片數據集的列表,這些數據集非常適合在自動駕駛汽車研究和開發中使用。下面的數據集包含超過250,000張影像和靜止影片幀,其中一些已經被注釋。
1. BIT車輛數據集 –來自北京智慧資訊技術實驗室的數據集包含9,850幅車輛影像。這些影像按車輛類型分為以下六類:公共汽車,小型客車,小型貨車,轎車,SUV和卡車。
http://iitlab.bit.edu.cn/mcislab/vehicledb/
2. 城市景觀影像對-使用從德國駕駛的車輛拍攝的交通影片,該數據集包括2,975個影像對。每個單獨的影像文件的左側都有原始的靜止幀,而右側在語義上已分割了相同的幀。
https://www.kaggle.com/dansbecker/cityscapes-image-pairs

來自「城市景觀影像對」數據集的樣本影像
3. GTI車輛影像資料庫 –此數據集包括3,425個道路上車輛的后角影像,以及3,900個沒有車輛的道路影像。
https://www.gti.ssr.upm.es/data/Vehicle_database.html
4. 帶邊界框的KITTI對象檢測 –取自卡爾斯魯厄技術學院的基準套件,該數據集由該套件的對象檢測部分中的影像組成。該影像數據集包括超過14,000張影像,這些影像由7,518張測試影像和7,481張訓練影像組成,並在單獨的文件中帶有邊界框標籤。
https://www.kaggle.com/twaldo/kitti-object-detection

來自KITTI對象檢測數據集的樣本影像
5. LISA紅綠燈數據集 –儘管此數據集不專註於車輛,但它仍然是用於訓練自動車輛演算法的非常有用的影像數據集。LISA交通訊號燈數據集包括夜間和白天的影片,總計43,0007幀,其中包括帶注釋的113,888個交通訊號燈。該數據集的重點是交通訊號燈。但是,幾乎所有車架中都裝有交通訊號燈和車輛。
https://www.kaggle.com/mbornoe/lisa-traffic-light-dataset
6. 尼泊爾車輛-由加德滿都街頭拍攝的總共30部交通影片組成,該數據集包含從這些影片中裁剪的4,800輛車輛的影像。在4800張影像中,有1811張為兩輪車,而2989張為四輪車。
https://github.com/sdevkota007/vehicles-nepal-dataset
7. 雨雪交通監控 –該數據集由22個影片組成,每個影片約5分鐘。使用RGB彩色相機和紅外熱像儀捕獲影片。因此,數據包括超過130,000個RGB熱影像對。
https://www.kaggle.com/aalborguniversity/aau-rainsnow
8. 斯坦福汽車數據集 –來自斯坦福大學AI實驗室的數據集包含196種不同類型汽車的16,185張影像。
http://ai.stanford.edu/~jkrause/cars/car_dataset.html
9. 自動駕駛汽車的語義分割 –作為Lyft Udacity Challenge的一部分創建,此數據集包含5,000張影像和相應的語義分割標籤。
https://www.kaggle.com/kumaresanmanickavelu/lyft-udacity-challenge#dataB.tar.gz
10. TME高速公路數據集 –由28個影片片段組成,總計27分鐘的影片,該數據集包括30,000多個帶有車輛注釋的幀。
http://cmp.felk.cvut.cz/data/motorway/