【最全中文NLP數據集】10大類、142條數據源,總有一款適合你!
- 2020 年 3 月 5 日
- 筆記
本文授權轉自"機器之心"(almosthuman2014)
中文 NLP 數據集搜索:https://www.cluebenchmarks.com/dataSet_search.html
在學習 NLP 的這條不歸路上,我們總會發現大多數先進演算法與優質示例程式碼都是用英文數據集。而當我們滿懷希望地把模型遷移到中文世界時,缺少公開的優質數據集簡直就是天塹。比如說最簡單的語言模型與詞嵌入模型,只需要一段段自然的中文文本就行了,然而實際上我們會發現好用的公開大型語料真的很少。
我們需要在 GitHub 等平台上找收集中文 NLP 數據集的各種項目,再根據需求進行選擇。值得注意的是,很多中國中文數據集已經非常老了,它們的使用會比較麻煩,這時候就需要我們自行判斷與試錯了。
不過在本文中,我們將介紹一項新的中文 NLP 數據搜索項目,它可能是目前最全的中文 NLP 數據集資訊收集項目。該項目收集了一百多條中文 NLP 數據資訊,並以搜索的形式展示結果。我們只要鍵入關鍵詞,或者數據集所屬的領域等資訊,就能找到對應的數據集。

每一條搜索結果都會展示數據集的基本資訊、訪問鏈接等關鍵資訊,能幫助我們快速篩選數據集。因為每一個領域都能找到非常多的同類數據集,因此這些簡述非常有意義。

如果讀者想看看到底有哪些數據集,可以直接查看該搜索項目的 GitHub 地址,所有數據集的資訊都在上面。
這可能是最全的中文 NLP 數據集合
本項目中的 NLP 數據集囊括了 NER、QA、情感分析、文本分類、文本分配、文本摘要、機器翻譯、知識圖譜、語料庫以及閱讀理解等 10 大類共 142 個數據集。
具體而言,對於每一個數據集,項目作者都提供了數據集名稱、更新時間、數據集提供者、說明、關鍵字、類別以及論文地址等幾方面的資訊。
項目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch

本項目中文 NLP 數據集分類。
但由於整個項目包含的數據集種類很多,機器之心只對其中的情感分析和文本分類數據集進行以下簡要介紹。
情感分析
作為自然語言處理(NLP)的一種常見應用,情感分析特別適用於以提取文本情感內容為目的的分類方法中。本項目中介紹了 11 個情感分析數據集來源,其中包括 NLPCC 2013/2014、Weibo Emotions Corpus、之江杯電商評論觀點挖掘大賽以及 2019 搜狐校園演算法大賽數據集。

項目中部分情感分析中文數據集詳情。
文本分類
作為自然語言處理中最常用和最基礎的應用,文本分類方面的數據集已經有很多。本項目中介紹了 19 個文本分類數據集來源,其中包括今日頭條中文新聞(文本)分類、THUCNews 中文文本分類、2017 知乎看山杯機器學習挑戰賽 以及中科大新聞分類語料庫等。

項目中部分文本分類數據集詳情。
最後,開發者也可以上傳數據集資訊貢獻自己的力量,上傳 5 個(含)以上數據集資訊即可在審核通過後成為本項目的貢獻者。目前似乎 142 個數據集已經很全了,但對於更多 NLP 子領域任務,還需要大家共同維護。
* 凡來源非註明「機器學習演算法與Python學習原創」的所有作品均為轉載稿件,其目的在於促進資訊交流,並不代表本公眾號贊同其觀點或對其內容真實性負責。