NLP 利器 gensim 庫基本特性介紹和安裝方式
試用了一下 gensim 效果確實不錯,而且操作比較簡潔,所以覺得應該推廣一下
本篇簡介的內容皆翻譯自官網,有興趣的可以自行查閱英文資訊:
Gensim 是一個 免費 的 Python 庫
一、3 大任務:
- 可擴展的統計語義
- 分析純文本文檔的語義結構
- 檢索語義相似的文檔
二、8 大特點:
1.1 可擴展性 Scalability
Gensim 可以處理大量的,互聯網尺度的語料,使用的是增量在線訓練演算法。
不需要把所有的訓練語料一次載入到記憶體中。
1.2 高效實施 Efficient implementations
Gensim 中的核心演算法使用高度優化的數學常式。
Gensim 還包含幾種演算法的分散式版本,旨在加快機器集群上的處理和檢索速度。
1.3 不依賴平台 Platform independent
Gensim 基於純 Python,可在 Linux,Windows 和 OS X 以及任何其他支援 Python 和 NumPy 的平台上運行。
1.4 轉換器和 I/O 格式 Converters & I/O formats
Gensim 包含對幾種流行數據格式的記憶體高效實現:Matrix Market,SVMlight,Blei’s LDA-C …
這些可用於輸入,輸出或在彼此之間轉換。
1.5 健壯性 robust
Gensim 已被各種人員和組織用於各種系統中超過 4 年。
開源項目最初的階段已經過去了。
1.6 相似性查詢 similarity queries
作為主題建模 topic modelling 很自然的下一步,Gensim 還包含用於在語義表示中 快速索引文檔,以及 檢索局部相似文檔 的程式碼。
1.7 開源 open source
GNU LGPL 許可證允許個人和商業使用,前提是對 Gensim 本身的任何修改又是開源的。
其他模式(雙重許可)也是可能的。
1.8 支援 Support
Gensim 通過社區努力得到支援和維護。
請參閱支援頁面,以獲取有關使用郵件列表,教程,常見問題解答,程式碼託管和貢獻者說明的資訊。
三、安裝
3.1 快速安裝的 2 種方式
在終端運行:
pip install --upgrade gensim
或者使用 conda:
conda install -c conda-forge gensim
3.2 程式碼依賴
Gensim 可以 運行在 Linux, Windows and Mac OS X 上。
也可以運行在任何支援 Python 2.7 or 3.5+ 和 NumPy 的平台。
Gensim 所需依賴:
- Python, 在 2.7, 3.5, 3.6 和 3.7 上均測試過。
- NumPy 用於數字運算。
- smart_open 用於用於透明地打開壓縮文件或遠程存儲文件。