64000張汽車圖片,再也沒有理由說做汽車項目沒有數據了
- 2020 年 2 月 12 日
- 筆記

大數據文摘出品
作者:曹培信
找不到合適的數據集來解決對應的機器學習問題,這種痛苦大概只有MLer們才知道。
關於汽車的項目很多,比如拍照識車、汽車比價等等,儘管這些項目本身難度不大,但是往往受制於數據集的品質,模型的效果不能很好的發揮。
Github上一位名叫Nicolas Gervais的小哥就給出了一個關於汽車的數據集,數據相當全品質也相當高,在汽車方面有機器學習項目要做的同學,趕緊碼住!
數據集的來源是The Car Connection網站,該網站是全球最大的汽車評測網站之一,致力於讓汽車研究更加容易,Nicolas就是從這個網站上爬取的汽車數據。

數據集包括它收集了297000張圖片,但是其中許多是汽車的內部影像,關於汽車的外觀應該有大約60000張照片。
所有的文件都對汽車的15個參數進行了標註:
'Make', 'Model', 'Year', 'MSRP', 'Front Wheel Size (in)', 'SAE Net Horsepower @ RPM', 'Displacement', 'Engine Type', 'Width, Max w/o mirrors (in)', 'Height, Overall (in)', 'Length, Overall (in)', 'Gas Mileage', 'Drivetrain', 'Passenger Capacity', 'Passenger Doors', 'Body Style'
並且根據這些參數來對影像進行命名,比如說名為Audi_A5_2013_43_18_210_20_4_73_54_182_24_FWD_4_2_Convertible_eUH.jpg的圖片,代表的就是這樣一輛車:

數據集下載鏈接:
https://drive.google.com/open?id=1TQQuT60bddyeGBVfwNOk6nxYavxQdZJD
可以說小哥爬的數據是相當用心了,其實在網上還有很多好的機器學習數據集,需要大家去慢慢探索,文摘菌也給大家再推薦一些可以找到好的數據集的網站。
Kaggle數據集:
www.kaggle.com/datasets
亞馬遜數據集:
registry.opendata.aws
UCI機器學習庫:
archive.ics.uci.edu/ml/datasets.html
Google的數據集搜索引擎:
toolbox.google.com/datasetsearch
微軟數據集:
msropendata.com
Awesome公共數據集:
github.com/awesomedata/awesome-public-datasets
電腦視覺數據集:
www.visualdata.io
2020年機器都在日夜學習了,數據集也給你準備好了,趕緊開始你的機器學習之旅吧!