NLP 利器 gensim 库基本特性介绍和安装方式
试用了一下 gensim 效果确实不错,而且操作比较简洁,所以觉得应该推广一下
本篇简介的内容皆翻译自官网,有兴趣的可以自行查阅英文信息:
Gensim 是一个 免费 的 Python 库
一、3 大任务:
- 可扩展的统计语义
- 分析纯文本文档的语义结构
- 检索语义相似的文档
二、8 大特点:
1.1 可扩展性 Scalability
Gensim 可以处理大量的,互联网尺度的语料,使用的是增量在线训练算法。
不需要把所有的训练语料一次加载到内存中。
1.2 高效实施 Efficient implementations
Gensim 中的核心算法使用高度优化的数学例程。
Gensim 还包含几种算法的分布式版本,旨在加快机器集群上的处理和检索速度。
1.3 不依赖平台 Platform independent
Gensim 基于纯 Python,可在 Linux,Windows 和 OS X 以及任何其他支持 Python 和 NumPy 的平台上运行。
1.4 转换器和 I/O 格式 Converters & I/O formats
Gensim 包含对几种流行数据格式的内存高效实现:Matrix Market,SVMlight,Blei’s LDA-C …
这些可用于输入,输出或在彼此之间转换。
1.5 健壮性 robust
Gensim 已被各种人员和组织用于各种系统中超过 4 年。
开源项目最初的阶段已经过去了。
1.6 相似性查询 similarity queries
作为主题建模 topic modelling 很自然的下一步,Gensim 还包含用于在语义表示中 快速索引文档,以及 检索局部相似文档 的代码。
1.7 开源 open source
GNU LGPL 许可证允许个人和商业使用,前提是对 Gensim 本身的任何修改又是开源的。
其他模式(双重许可)也是可能的。
1.8 支持 Support
Gensim 通过社区努力得到支持和维护。
请参阅支持页面,以获取有关使用邮件列表,教程,常见问题解答,代码托管和贡献者说明的信息。
三、安装
3.1 快速安装的 2 种方式
在终端运行:
pip install --upgrade gensim
或者使用 conda:
conda install -c conda-forge gensim
3.2 代码依赖
Gensim 可以 运行在 Linux, Windows and Mac OS X 上。
也可以运行在任何支持 Python 2.7 or 3.5+ 和 NumPy 的平台。
Gensim 所需依赖:
- Python, 在 2.7, 3.5, 3.6 和 3.7 上均测试过。
- NumPy 用于数字运算。
- smart_open 用于用于透明地打开压缩文件或远程存储文件。