python之詞雲與『結巴』

2019 年 10 月 8 日
筆記

在python中，你的數據收集到了之後除了可以直接打開來看，做成表格看以外，還可以做詞雲。

第一次使用詞雲，需要先安裝wordcloud的庫

第一種：pip install wordcloud

第二種：pycharm-在setting中的project interpreter中右邊的+號點擊進去，然後輸入wordcloud就可以安裝了。

簡單的一個wordcloud例子

大概過程就是：

導入庫

打開文本文件，或者直接調用文本數據

然後設置底圖

然後調用wordcloud中的WordCloud函數傳入數據，設置數據。

顯示出來

效果圖：

詞雲中選用的數據是之前爬取知乎的python問題的題目。

底圖是這個路飛的形狀，然後數據也很好的契合到這個輪廓裡面，如果的底圖沒有分明的輪廓，像這種圖片有個白底的那樣子的話，那個數據可能就會全覆蓋了。

這裡要安裝的庫有numpy，PIL，以及wordcloud和matplotlib，

因為這個wordcloud的generate是不支援中文格式的，於是引用一下windows的字體一下。

結果就成這樣了。

引用的程式碼

wordcloud = WordCloud(

mask=bg_pic,background_color='white',scale=4,

font_path='C:WindowsFontssimhei.ttf').generate(text)

差不多就是最後一句了，這裡是黑體，如果你要想要其他屬性，可以進入這個目錄：C:WindowsFonts，（這裡是windows10，其他版本的目前沒去測試）右鍵你要的字體然後看屬性

然後就可以複製他的這個名字去調用了。

在這裡，他的底圖的調用有兩種不同的情況

第一種，用cv2來獲取圖片

bg_pic = cv2.imread('0.jpg')

第二種，用PIL的Image模組來獲取圖片

bg_pic = np.array(Image.open('0.jpg'))

兩種方法都是一樣的，一開始我誤解以為有不一樣的效果，其實都一樣。

jieba分詞：

jieba是一款python中文組件

下面是一個簡單例子：

安裝

在pycharm貌似安裝不了，但是可以直接用pip install jieba來安裝。

然後import jieba 就可以使用了。

分詞的方法就在上面的例子，很簡單，不過不能直接print jieba.cut(text),需要用。join（）來獲取分完的結果。

jieba分詞有三個特點：

精確模式：將句子最精確的切開，適合文本分析

全模式：把句子中所有的可以成詞的詞語都掃描出來，速度很快，但是不能解決歧義

搜索引擎模式：

在精確模式的基礎對長的詞再次切分。適用於搜索引擎的分詞。

這裡就是簡單介紹一下結巴分詞和wordcloud，如果你想更深的去了解的話可以去網上找專門的介紹文檔，或者教程。

python之詞雲與『結巴』

VirMach 便宜 VPS

QNews

python之詞雲與『結巴』

分享此文：

Related Posts

資料庫表CRMD_ORDERADM_I里欄位OBJECT_TYPE的計算邏輯

設計一個文件系統，需要考慮哪些因素？

機器學習-手寫數字識別

Django之使用redis快取session，歷史瀏覽記錄，首頁數據實現性能優化

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋