一步步搭建Stanford NLP工具包
- 2019 年 11 月 12 日
- 笔记
简介
今天看视频看到的Stanford NLP,这里按照视频的讲解,简单做个笔记。Stanford NLP是少有的支持中文语料的工具,Stanford NLP提供了一系列自然语言分析工具。它能够给出基本的词形、词性,并且能够标记句子的结构,语法形式和字词的依赖,指明那些名字指向同样的实体,指明情绪,提取发言中的开放关系等。需要注意的就是Stanford NLP代码库运行比较慢。
Stanford NLP的一些特点:
一个集成的语言分析工具集;
进行快速,可靠的任意文本分析,支持多种语言;
整体的高质量的文本分析,比赛中获得过第一名;
支持多种主流语言以及拥有多种编程语言易用的接口;
方便简单的部署web服务;
如何安装
接下来就是最重要的,如何在windows中来安装StandFord NLP以及如何使用Python来使用呢?
00
由于Stanford NLP是java编写的,所以电脑中一定要有java的开发环境,如果没有的话,导入Stanford NLP的时候会抛出找不到指定文件的异常,如下所示:

如果电脑中已经配置好了java环境,则可以跳过这一步,直接到01。
下面介绍如何配置java环境变量:
下载jdk
官网地址:https://www.oracle.com/index.html,




下载完成之后,双击打开进行安装即可:
安装JDK
安装非常简单直接下一步下一步即可,安装完成后如下图所示:

配置环境变量
对于Java程序开发而言,主要会使用JDK的两个命令:javac.exe、java.exe。路径:C:Javajdk 1.7.0 _09bin。但是这些命令由于不属于windows自己的命令,所以要想使用,就需要进行路径配置。
右击“计算机”–>“属性”–>“高级系统设置”,点击“环境变量”,


- 新建->变量名"JAVA_HOME",变量值"C:Program FilesJavajdk-12"(即JDK的安装路径)
- 编辑->变量名"Path",在原变量值的最后面加上“;%JAVA_HOME%bin;%JAVA_HOME%jrebin”
- 新建->变量名“CLASSPATH”,变量值“.;%JAVA_HOME%lib;%JAVA_HOME%libdt.jar;%JAVA_HOME%libtools.jar”
确定环境变量是否安装正确
在控制台分别输入java,javac,java -version 命令,出现如下所示的JDK的编译器信息,包括修改命令的语法和参数选项等信息。配置成功,如下图所示:



01
安装Stanford NLP自然语言处理包,pip install stanfordcorenlp

02
下载Stanford CoreNLP文件,https://stanfordnlp.github.io/CoreNLP/download.html,

下载完成后,解压重命名(当然也可以不重命名,重命名为了后续使用方便而已),如下所示:

03
由于Stanford NLP是由java开发的,所以如果要使用的话,需要引入相应的jar包,这里有很多种语言的jar包,我们想使用中文,找到对应的中文jar包下载即可,http://nlp.stanford.edu/software/stanford-chinese- corenlp-2018-02-27-models.jar,当然我们也可以去https://stanfordnlp.github.io/CoreNLP/download.html下去找其他的语言的jar包进行下载:

04
将在第三步下载好的中文jar包剪切复制到第二步解压重命名的Stanfordnlp目录下。
05
完成了前面的工作之后,就可以使用Python来引用Stanford NLP了,引用模型的代码如下所示:

由于我的路径为:

所以我要使用Stanford NLP的话,只需要执行下面代码:

例子

