定个小目标,发它一个亿条微博语料
- 2019 年 10 月 31 日
- 笔记
作者:何晗
学校:美国埃默里大学
码农场博主,HanLP 开发者, 新书《自然语言处理入门》作者
博客地址:http://www.hankcs.com/
![](https://ask.qcloudimg.com/http-save/yehe-1178513/4nh2vs8qjg.jpeg)
2019最新的微博语料,可用于预训练语言模型Weibo-BERT词向量等。由于比较时新,对网络流行语的建模可能很有帮助。每个压缩包都有两千多万条,一共5个。大家下载之后也算是有一个亿身家的人了,激动吧。感兴趣的同学要不要训练个Weibo-BERT之类的,也算填补不规范文本的一大空白。
样本如下:
希望2019不要再zd了 一堆破事天天开会 //@夏目家的小诗哥:我信了[ok]//@镰刀刮腋毛:好的 这位兄弟你有事么? 十二月 //@夏目家的小诗哥:听歌要切换网易云QQ酷狗5SingB站虾米荔枝那么多[跪了]//@瞎无聊的小号:是啊 听两首歌切来切去//@风吹铃铛响叮叮:同一个愿望。//@江南大野花:隔一段时间不是这边灰了就是那边灰了,切来切去像在赶集 人这一生不要做自己后悔的事。 好看(//∇//) 那我必须得转一下了[哈哈][哈哈] 大鹅hhhhh 我也是这么觉得,但只是隐含地说了下。有些人真的太过了 不,是奶油味的(//∇//)
![](https://ask.qcloudimg.com/http-save/yehe-1178513/4nh2vs8qjg.jpeg)
分为5个压缩包,每个压缩包解压后3个G的纯文本两千万条以上,合计一个亿。
下载地址:
- https://bbs.hankcs.com/t/topic/42
- https://bbs.hankcs.com/t/topic/67
- https://bbs.hankcs.com/t/topic/82
- https://bbs.hankcs.com/t/topic/98
- https://bbs.hankcs.com/t/topic/110
不搞虚的,屠龙宝刀,注册就送,不设密码,自由转载,仅供研究。
原文链接
本文由作者原创授权AINLP首发于公众号平台