定个小目标,发它一个亿条微博语料

  • 2019 年 10 月 31 日
  • 笔记

作者:何晗

学校:美国埃默里大学

码农场博主,HanLP 开发者, 新书《自然语言处理入门》作者

博客地址:http://www.hankcs.com/


2019最新的微博语料,可用于预训练语言模型Weibo-BERT词向量等。由于比较时新,对网络流行语的建模可能很有帮助。每个压缩包都有两千多万条,一共5个。大家下载之后也算是有一个亿身家的人了,激动吧。感兴趣的同学要不要训练个Weibo-BERT之类的,也算填补不规范文本的一大空白。

样本如下:

希望2019不要再zd了 一堆破事天天开会 //@夏目家的小诗哥:我信了[ok]//@镰刀刮腋毛:好的 这位兄弟你有事么? 十二月 //@夏目家的小诗哥:听歌要切换网易云QQ酷狗5SingB站虾米荔枝那么多[跪了]//@瞎无聊的小号:是啊 听两首歌切来切去//@风吹铃铛响叮叮:同一个愿望。//@江南大野花:隔一段时间不是这边灰了就是那边灰了,切来切去像在赶集 人这一生不要做自己后悔的事。 好看(//∇//) 那我必须得转一下了[哈哈][哈哈] 大鹅hhhhh 我也是这么觉得,但只是隐含地说了下。有些人真的太过了 不,是奶油味的(//∇//)

分为5个压缩包,每个压缩包解压后3个G的纯文本两千万条以上,合计一个亿。

下载地址:

  1. https://bbs.hankcs.com/t/topic/42
  2. https://bbs.hankcs.com/t/topic/67
  3. https://bbs.hankcs.com/t/topic/82
  4. https://bbs.hankcs.com/t/topic/98
  5. https://bbs.hankcs.com/t/topic/110

不搞虚的,屠龙宝刀,注册就送,不设密码,自由转载,仅供研究。


原文链接

定个小目标,发它一个亿条微博语料

本文由作者原创授权AINLP首发于公众号平台