TensorFlow最出色的30個機器學習數據集

2020 年 8 月 11 日
AI

英語原文：30 Largest TensorFlow Datasets for Machine Learning

翻譯：雷鋒字幕組（chenx2ovo）

TensorFlow是由Google大腦的研究人員創建、最大的機器學習和數據科學的開源資料庫之一。它是一個端到端平台，適合完全沒有經驗的初學者和有經驗的數據科學家。TensorFlow庫包括工具、預訓練模型、機器學習教程以及一整套公開數據集。為了幫助你找到所需的訓練數據，本文將簡單介紹一些TensorFlow中用於機器學習的大型數據集。我們將以下數據集的列表分為影像、影片、音頻和文本。

TensorFlow影像數據集

1. CelebA：明星臉屬性數據集（CelebA）是最大的公開可用的人臉影像數據集，其中包含200,000多個名人影像。

每個影像包括5個面部標註和40個二進位屬性標註。

2. Downsampling Imagenet：該數據集是為密度估計和生成性建模任務而建立的。它包括了130多萬張物體、場景、車輛、人物等影像。這些影像有兩種解析度規格：32×32和64×64。

3. Lsun—Lsun是一個大規模的影像數據集，創建該數據集是為了幫助訓練模型進行場景理解。該數據集包含超過900萬張影像，按場景類別劃分，如卧室、教室和餐廳。

4. Bigearthnet—Bigearthnet是另一個大規模數據集，它包含來自Sentinel-2衛星的航空影像。每張影像覆蓋了1.2公里×1.2公里的一片地面。該數據集中有43個類別不平衡的標籤。

5. Places 365—顧名思義，Places 365包含180多萬張不同地方或場景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365是用於場景識別任務的最大數據集之一。

6. Quickdraw點陣圖—Quickdraw數據集是由Quickdraw玩家社區繪製的影像集合。它包含500萬張圖紙，跨越345個類別。這個版本的Quickdraw數據集包括28×28的灰度影像。

7. SVHN Cropped—街景房號（SVHN）是為訓練數字識別演算法，由斯坦福大學建立的TensorFlow數據集。它包含60萬個真實世界的、被裁剪成32×32像素的影像數據實例。

8. VGGFace2—最大的人臉影像數據集之一，VGGFace2包含從Google搜索引擎下載的影像。數據集中的人臉在年齡、姿勢和種族上都有所不同。每個類別平均有362張影像。

9. COCO—由Google、FAIR、加州理工學院等合作者製作，是世界上最大的標籤影像數據集之一。它是為物體檢測、分割和影像字幕任務而建立的。

通過cocodataset.org

數據集包含330,000張影像，其中20萬張有標籤。在所有影像中，共包含了80個類別的150萬個對象實例。

10. Open Images Challenge 2019—包含約900萬張影像，該數據集是網上最大的、標註的影像數據集之一。這些影像包含影像級標籤、對象邊界框和對象分割掩碼，以及他們之間的視覺關係。

11. Open Images V4—這個數據集是上述Open Images數據集的另一個迭代。V4版本中包含了600個不同物體類別的1460萬個邊界框。這些邊界框是由人類標註者手動繪製的。

12. AFLW2K3D—該數據集包含2000張面部影像，均有3D面部真實標註。它的創建是為了評估3D面部標註檢測模型。

影片數據集

13. UCF101—來自中央佛羅里達大學，UCF101是為訓練動作識別模型而建立的影片數據集。該數據集有101個動作類別的13320個影片，。

14. BAIR Robot Pushing—來自伯克利人工智慧研究，BAIR Robot Pushing包含44000個機器人推的動作的示例影片。

15. Moving MNIST—這個數據集是MNIST基準數據集的一個變體。Moving MNIST包含10,000個影片。

每個影片都顯示了在64×64大小的幀內2個手寫數字的移動過程。

16. EMNIST—擴展的MNIST數據集，包含了原始MNIST數據集轉換成28 x 28像素大小的圖片。

TensorFlow音頻數據集

17. CREMA-D—為情感識別任務而創建，CREMA-D由語音情感表達組成。該數據集包含由年齡，種族和性別不同的91位演員表達的7,442個音頻剪輯。

18. Librispeech—Librispeech是一個簡單的音頻數據集，它包含1000小時的英語語音，這些語音來自LibriVox項目的有聲讀物。它被用於訓練聲學模型和語言模型。

19. Libritts—這個數據集包含約585小時的英語語音，是在Google Brain團隊成員的協助下準備的。Libritts最初是為Text-to-speech（TTS）研究設計的，但可以用於各種語音識別任務。

20. TED-LIUM—TED-LIUM是一個包含110多個小時的英語TED演講的數據集。所有的演講內容都已被轉錄。

21. VoxCeleb—VoxCeleb是為演講者識別任務而建立的大型音頻數據集，包含來自1,251位演講者的150,000多個音頻樣本。

文本數據集

22. C4(Common Crawl’s Web Crawl Corpus)—Common Crawl是一個開放源碼的網頁資料庫。它包含了超過40種語言、跨越7年的數據。

23. Civil Comments—這個數據集是由來自50個英文新聞網站的180多萬條公眾評論構成的。

24. IRC Disentanglement—這個TensorFlow數據集包括來自Ubuntu IRC頻道的77000多條評論。每個樣本的元數據包括消息ID和時間戳。

25. Lm1b—被稱為語言模型基準，這個數據集包含10億個單詞。它最初是為了衡量統計語言建模的進展。

26. SNLI—斯坦福自然語言推理數據集是一個包含57萬個人類寫作句子對的語料庫。所有的句對都經過人工標註，類別是均衡的。

27.e-SNLI—這個數據集是上面提到的SNLI的擴展，它包含了原始數據集的57萬個句子對，分類為：包含、矛盾和中性。

28. MultiNLI—仿照SNLI數據集，MultiNLI包含433,000個句子對，都有尾部資訊注釋。

29. Wiki40b—這個大規模的數據集包括40種不同語言的維基百科文章。這些數據已經被清理，其中的非內容部分以及結構化對象已經被去掉。

30. Yelp極性評論—這個數據集包含598,000條高度極性的Yelp評論。它們是從2015年Yelp數據集挑戰賽中的數據提取出來的。

雖然上述數據集是機器學習中最大、最廣泛使用的一些TensorFlow數據集，但TensorFlow庫是龐大的，並在不斷擴展。請訪問TensorFlow網站，了解更多關於該平台如何幫助您構建自己的模型的資訊。

雷鋒字幕組是由AI愛好者組成的志願者翻譯團隊；團隊成員有大數據專家、演算法工程師、影像處理工程師、產品經理、產品運營、IT諮詢人、在校師生；志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業，北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

了解字幕組請聯繫微信：tlacttlact

轉載請聯繫字幕組微信並註明出處：雷鋒字幕組

雷鋒網雷鋒網