定個小目標,發它一個億條微博語料

  • 2019 年 10 月 31 日
  • 筆記

作者:何晗

學校:美國埃默里大學

碼農場部落客,HanLP 開發者, 新書《自然語言處理入門》作者

部落格地址:http://www.hankcs.com/


2019最新的微博語料,可用於預訓練語言模型Weibo-BERT詞向量等。由於比較時新,對網路流行語的建模可能很有幫助。每個壓縮包都有兩千多萬條,一共5個。大家下載之後也算是有一個億身家的人了,激動吧。感興趣的同學要不要訓練個Weibo-BERT之類的,也算填補不規範文本的一大空白。

樣本如下:

希望2019不要再zd了 一堆破事天天開會 //@夏目家的小詩哥:我信了[ok]//@鐮刀刮腋毛:好的 這位兄弟你有事么? 十二月 //@夏目家的小詩哥:聽歌要切換網易雲QQ酷狗5SingB站蝦米荔枝那麼多[跪了]//@瞎無聊的小號:是啊 聽兩首歌切來切去//@風吹鈴鐺響叮叮:同一個願望。//@江南大野花:隔一段時間不是這邊灰了就是那邊灰了,切來切去像在趕集 人這一生不要做自己後悔的事。 好看(//∇//) 那我必須得轉一下了[哈哈][哈哈] 大鵝hhhhh 我也是這麼覺得,但只是隱含地說了下。有些人真的太過了 不,是奶油味的(//∇//)

分為5個壓縮包,每個壓縮包解壓後3個G的純文本兩千萬條以上,合計一個億。

下載地址:

  1. https://bbs.hankcs.com/t/topic/42
  2. https://bbs.hankcs.com/t/topic/67
  3. https://bbs.hankcs.com/t/topic/82
  4. https://bbs.hankcs.com/t/topic/98
  5. https://bbs.hankcs.com/t/topic/110

不搞虛的,屠龍寶刀,註冊就送,不設密碼,自由轉載,僅供研究。


原文鏈接

定個小目標,發它一個億條微博語料

本文由作者原創授權AINLP首發於公眾號平台