­

數據集網站收集(可用於機器學習,數據挖掘等,持續更新)

數據集網站收集(持續更新)

1.Kaggle: //www.kaggle.com/

  • 可以按關鍵字搜索數據集
  • 自帶討論區
  • 有熱心群眾分享自己的Kernel,可供參考(熱心群眾們自己對數據的分析代碼)

2.天池: //tianchi.aliyun.com/competition/gameList/algorithmList

  • 包括阿里系公司(淘寶,餓了么)的部分業務數據(不是很全,只作為賽題數據)
  • 需要登錄才可以下載

2.UCI Machine Learning Repository//archive.ics.uci.edu/ml/datasets.php

  • 可以按關鍵字搜索數據集
  • 可以按任務類型(用於分類,回歸,聚類),數據類型(文本,時序),領域(工程,CS,商業),特徵數量等進行篩選

3.美國政府開放數據Data.gov //www.data.gov/

  • 可以按關鍵字搜索數據集
  • 分為農業,氣候,教育等多個主題

4.中國國家統計局 //data.stats.gov.cn/easyquery.htm?cn=A01

  • 需要登錄
  • 網站自帶一定的可視化功能
  • 數據可導出為csv,pdf等格式
  • 包括國家的工業,農業,運輸業,經濟等方方面面的數據
  • 可以自行選擇數據的時間跨度,例如按年導出(2015-2019工業年產值),按月導出(2015.2-2020.2鐵路旅客運輸量)