64000張汽車圖片,再也沒有理由說做汽車項目沒有數據了

  • 2020 年 2 月 12 日
  • 筆記

大數據文摘出品

作者:曹培信

找不到合適的數據集來解決對應的機器學習問題,這種痛苦大概只有MLer們才知道。

關於汽車的項目很多,比如拍照識車、汽車比價等等,儘管這些項目本身難度不大,但是往往受制於數據集的品質,模型的效果不能很好的發揮。

Github上一位名叫Nicolas Gervais的小哥就給出了一個關於汽車的數據集,數據相當全品質也相當高,在汽車方面有機器學習項目要做的同學,趕緊碼住!

數據集的來源是The Car Connection網站,該網站是全球最大的汽車評測網站之一,致力於讓汽車研究更加容易,Nicolas就是從這個網站上爬取的汽車數據。

數據集包括它收集了297000張圖片,但是其中許多是汽車的內部影像,關於汽車的外觀應該有大約60000張照片。

所有的文件都對汽車的15個參數進行了標註:

'Make', 'Model', 'Year', 'MSRP', 'Front Wheel Size (in)', 'SAE Net Horsepower @ RPM',  'Displacement', 'Engine Type', 'Width, Max w/o mirrors (in)', 'Height, Overall (in)',  'Length, Overall (in)', 'Gas Mileage', 'Drivetrain', 'Passenger Capacity', 'Passenger Doors',  'Body Style'

並且根據這些參數來對影像進行命名,比如說名為Audi_A5_2013_43_18_210_20_4_73_54_182_24_FWD_4_2_Convertible_eUH.jpg的圖片,代表的就是這樣一輛車:

數據集下載鏈接:

https://drive.google.com/open?id=1TQQuT60bddyeGBVfwNOk6nxYavxQdZJD

可以說小哥爬的數據是相當用心了,其實在網上還有很多好的機器學習數據集,需要大家去慢慢探索,文摘菌也給大家再推薦一些可以找到好的數據集的網站。

Kaggle數據集:

www.kaggle.com/datasets

亞馬遜數據集:

registry.opendata.aws

UCI機器學習庫:

archive.ics.uci.edu/ml/datasets.html

Google的數據集搜索引擎:

toolbox.google.com/datasetsearch

微軟數據集:

msropendata.com

Awesome公共數據集:

github.com/awesomedata/awesome-public-datasets

電腦視覺數據集:

www.visualdata.io

2020年機器都在日夜學習了,數據集也給你準備好了,趕緊開始你的機器學習之旅吧!