NLP 利器 gensim 庫基本特性介紹和安裝方式

試用了一下 gensim 效果確實不錯,而且操作比較簡潔,所以覺得應該推廣一下

本篇簡介的內容皆翻譯自官網,有興趣的可以自行查閱英文資訊:

gensim官網

Gensim 是一個 免費 的 Python 庫

一、3 大任務:

  • 可擴展的統計語義
  • 分析純文本文檔的語義結構
  • 檢索語義相似的文檔

二、8 大特點:

1.1 可擴展性 Scalability

Gensim 可以處理大量的,互聯網尺度的語料,使用的是增量在線訓練演算法。

不需要把所有的訓練語料一次載入到記憶體中。

1.2 高效實施 Efficient implementations

Gensim 中的核心演算法使用高度優化的數學常式。

Gensim 還包含幾種演算法的分散式版本,旨在加快機器集群上的處理和檢索速度。

1.3 不依賴平台 Platform independent

Gensim 基於純 Python,可在 Linux,Windows 和 OS X 以及任何其他支援 Python 和 NumPy 的平台上運行。

1.4 轉換器和 I/O 格式 Converters & I/O formats

Gensim 包含對幾種流行數據格式的記憶體高效實現:Matrix Market,SVMlight,Blei’s LDA-C …

這些可用於輸入,輸出或在彼此之間轉換。

1.5 健壯性 robust

Gensim 已被各種人員和組織用於各種系統中超過 4 年。

開源項目最初的階段已經過去了。

1.6 相似性查詢 similarity queries

作為主題建模 topic modelling 很自然的下一步,Gensim 還包含用於在語義表示中 快速索引文檔,以及 檢索局部相似文檔 的程式碼。

1.7 開源 open source

GNU LGPL 許可證允許個人和商業使用,前提是對 Gensim 本身的任何修改又是開源的。

其他模式(雙重許可)也是可能的。

1.8 支援 Support

Gensim 通過社區努力得到支援和維護。

請參閱支援頁面,以獲取有關使用郵件列表,教程,常見問題解答,程式碼託管和貢獻者說明的資訊。

三、安裝

3.1 快速安裝的 2 種方式

在終端運行:

pip install --upgrade gensim

或者使用 conda:

conda install -c conda-forge gensim

3.2 程式碼依賴

Gensim 可以 運行在 Linux, Windows and Mac OS X 上。

也可以運行在任何支援 Python 2.7 or 3.5+ 和 NumPy 的平台。

Gensim 所需依賴:

  • Python, 在 2.7, 3.5, 3.6 和 3.7 上均測試過。
  • NumPy 用於數字運算。
  • smart_open 用於用於透明地打開壓縮文件或遠程存儲文件。