世界上最有價值的不是石油,而是數據!

  • 2019 年 10 月 8 日
  • 筆記

作者 | 愛德寶器 來源 | 數據管道

摘要

"The world's most valuable resource is no longer oil,but data"

一種新的商品催生出一個利潤豐厚、發展迅速的行業。這促使反壟斷監管機構介入,從而約束那些能夠控制這種商品流動的巨頭。

一百年前,石油就是這樣一種資源。現在,一些經營數據的巨頭引發了類似擔憂,這些數據將成為數字時代的石油。

目前處於數據驅動型經濟中,如果無法分析當前或未來的趨勢,任何組織都無法生存下去。搶奪數據已經成為決定下一步行動方案的關鍵。

作為數據科學領域的從業者來說,對於數據的需求更為強烈。

本次整理了一些NBA、社交網路、影像、語音、文本、時間序列、人文歷史、金融等領域的免費和開源的數據集資源。(從正文帶藍色下劃線鏈接自取)。

數據集

一、NBA球員數據集:

  • https://www.basketball-reference.com/players/l/linje01.html
  • http://china.nba.com/statistics
  • http://www.stat-nba.com

二、影像、文本、語言數據集

影像

1、由79302017幅影像組成的數據集,每幅影像為32×32像素彩色影像。

http://horatio.cs.nyu.edu/mit/tiny/data/index.html

2、人臉識別數據集。

http://www.face-rec.org/databases/

3、一個可搜索的影像資料庫。

http://www.image-net.org/index

語音:

1、CMU語音識別資料庫。

http://www.speech.cs.cmu.edu/databases/

2、對音樂分析的數據集。

http://users.cis.fiu.edu/~lli003/Music/music.html

3、100萬首歌曲的數據集

https://labrosa.ee.columbia.edu/millionsong/

文本:

1、用於構建機器學習推薦系統的1.5 TB數據集

https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1

三、金融和商業數據集:

1、ebay拍賣招標數據集。

http://www.modelingonlineauctions.com/datasets

2、紐約市警察局的交通事故數據(csv格式)。

http://nypd.openscrape.com/#/

3、從aiHit資料庫中隨機抽取的10,000家英國公司的資訊

https://www.aihitdata.com/redirect/cons/datasets.html

4、美國股票新聞數據

http://dataju.cn/Dataju/web/datasetInstanceDetail/220

5、美國金融客戶投訴數據

http://dataju.cn/Dataju/web/datasetInstanceDetail/229

6、Airbnb 開放的民宿資訊和住客評論數據 http://dataju.cn/Dataju/web/datasetInstanceDetail/360

四、政府出台的相關數據

1、健康、環境、能源等數據。

http://data.un.org/

2、經濟時間系列,由美國政府機構製作,以多種形式和媒體發行

http://inforumweb.umd.edu/econdata/econdata.html

3、USGovXML是一個由美國政府提供的公開可用web服務和XML數據源的索引

http://usgovxml.com/

五、技術、社交網路、人文歷史等數據集

1、80 Tb的存檔web爬蟲數據。

http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/

2、一個包含許多「開放」社交網路分析數據集的可訪問庫的站點。

http://ww31.growmeme.com/overview

3、斯坦福大型網路數據集收集。

http://snap.stanford.edu/data/index.html

4、一個包含Google圖書公司的數據集。

https://aws.amazon.com/cn/datasets/google-books-ngrams/

5、基因遺傳數據集。

http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi

6、地球撞擊隕石數據。

https://www.analyticbridge.datasciencecentral.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized

機器學習數據集常用搜索網站

1、Kaggle

https://www.kaggle.com/competitions

2、加州大學歐文分校機器學習庫。

http://archive.ics.uci.edu/ml/index.php

3、Google數據集搜索。

https://toolbox.google.com/datasetsearch

4、Datahub,分享高品質數據集平台

https://datahub.io/

5、用於上傳和查找數據集的機器學習數據集存儲庫。

https://www.webdoctx.com/www.mldata.org

本文參考:

  • 《經濟學人》報道。
  • https://datahub.io/。
  • Google數據集搜索。
  • Github數據集相關貢獻。
  • http://mt.sohu.com/20180209/n530607148.shtml。