­

NLP 利器 gensim 库基本特性介绍和安装方式

试用了一下 gensim 效果确实不错,而且操作比较简洁,所以觉得应该推广一下

本篇简介的内容皆翻译自官网,有兴趣的可以自行查阅英文信息:

gensim官网

Gensim 是一个 免费 的 Python 库

一、3 大任务:

  • 可扩展的统计语义
  • 分析纯文本文档的语义结构
  • 检索语义相似的文档

二、8 大特点:

1.1 可扩展性 Scalability

Gensim 可以处理大量的,互联网尺度的语料,使用的是增量在线训练算法。

不需要把所有的训练语料一次加载到内存中。

1.2 高效实施 Efficient implementations

Gensim 中的核心算法使用高度优化的数学例程。

Gensim 还包含几种算法的分布式版本,旨在加快机器集群上的处理和检索速度。

1.3 不依赖平台 Platform independent

Gensim 基于纯 Python,可在 Linux,Windows 和 OS X 以及任何其他支持 Python 和 NumPy 的平台上运行。

1.4 转换器和 I/O 格式 Converters & I/O formats

Gensim 包含对几种流行数据格式的内存高效实现:Matrix Market,SVMlight,Blei’s LDA-C …

这些可用于输入,输出或在彼此之间转换。

1.5 健壮性 robust

Gensim 已被各种人员和组织用于各种系统中超过 4 年。

开源项目最初的阶段已经过去了。

1.6 相似性查询 similarity queries

作为主题建模 topic modelling 很自然的下一步,Gensim 还包含用于在语义表示中 快速索引文档,以及 检索局部相似文档 的代码。

1.7 开源 open source

GNU LGPL 许可证允许个人和商业使用,前提是对 Gensim 本身的任何修改又是开源的。

其他模式(双重许可)也是可能的。

1.8 支持 Support

Gensim 通过社区努力得到支持和维护。

请参阅支持页面,以获取有关使用邮件列表,教程,常见问题解答,代码托管和贡献者说明的信息。

三、安装

3.1 快速安装的 2 种方式

在终端运行:

pip install --upgrade gensim

或者使用 conda:

conda install -c conda-forge gensim

3.2 代码依赖

Gensim 可以 运行在 Linux, Windows and Mac OS X 上。

也可以运行在任何支持 Python 2.7 or 3.5+ 和 NumPy 的平台。

Gensim 所需依赖:

  • Python, 在 2.7, 3.5, 3.6 和 3.7 上均测试过。
  • NumPy 用于数字运算。
  • smart_open 用于用于透明地打开压缩文件或远程存储文件。