NLP入門學習中關於分詞庫HanLP導入使用教程
大家好,時隔多年再次打開我的博客園寫下自己的經驗和學習總結,開園三年多,文章數少得可憐,一方面自己技術水平局限,另一方面是自己確實想放棄寫博客。由於畢業工作的原因,經常性的加班以及僅剩下少的可憐的休息時間實在是想好好休息。但現在又回到了校園,在2019年4月份我選擇了辭職考研,如願考取了計算機科學與技術的碩士研究生,目前在長春理工大學就讀,在導師的建議下我選擇NLP(自然語言處理)這個研究方向。對於自己重新開始寫博客,一方面是為了鞏固自己學習的成果,另一方面是自己在摸索的過程中經歷了一些問題,走了一些彎路,寫博文是希望同樣遇到這個問題的兄弟姐妹看到我的博文後自己的問題能夠順利解決。
作為NLP的入門學者,為了能夠學得更好,我們需要將理論學習與實踐相結合。我們在學習 <<自然語言處理入門>> 這本書時需要導入作者何晗開發的中文語言處理類庫 HanLP。 我是自學過一段時間得java語言,所以本篇博客採用java方式導入。
導入之前需了解的基礎知識:java運行環境的配置、maven項目的創建以及系列操作
步驟:
1.創建一個文件夾作為maven工程存放的父級目錄 例如:nlpProject
2.在此目錄下新建一個maven Module
選擇好安裝好的JDK之後給你的maven Module取一個名字
3.配置pom.xml文件,將下列代碼加到文件中
1 <dependencies> 2 <dependency> 3 <groupId>com.hankcs</groupId> 4 <artifactId>hanlp</artifactId> 5 <version>portable-1.8.1</version> 6 </dependency> 7 </dependencies>
4.安裝依賴
5.運行
上面是一帆風順情況下的步驟,當然,真實情況並不是那麼完美。你有可能會出現以下幾種問題,對應解決方案如下:
問題1:報找不到加載類的編譯錯誤
解決方案:你需要在這個地方更改一下你的編譯設置
問題2:明明你導入了依賴,而且idea未編譯之前不報錯。但是為什麼報 HanLP無法找到的錯誤
亂碼情況如下圖: