Python 3.* 版本Stanford nlp安裝及問題解決

2023-05-23 12:51:45

環境

window7 64位

JDK1.8

Python3.5

stanfordcorenlp的使用

進行中文詞語詞幹化的工作，聽說coreNLP這個工具不錯。

coreNLP是斯坦福大學開發的一套關于自然語言處理的工具(toolbox)，使用簡單功能強大，有：命名實體識别、詞性标注、詞語詞幹化、語句文法樹的構造還有指代關系等功能，使用起來比較友善。

PART1：安裝Stanford NLP

1）安裝Stanford nlp自然語言處理包：pip install stanfordcorenlp

2）下載下傳Stanford CoreNLP檔案：http://stanfordnlp.github.io/CoreNLP/download.html

Python 3.* 版本Stanford nlp安裝及問題解決

3）下載下傳中文模型jar包：http://nlp.stanford.edu/software/stanford-chinese-corenlp-208-02-27-models.jar

Python 3.* 版本Stanford nlp安裝及問題解決

4）把解壓後的Stanford CoreNLP檔案夾(個人習慣，這裡我重命名為stanford_nlp)和下載下傳的Stanford-chinese-corenlp-2018-02-27-models.jar放在同一目錄下(注意：一定要在同一目錄下，否則執行會報錯)

Python 3.* 版本Stanford nlp安裝及問題解決

5）在Python中引用模型，執行下面語句：

from stanfordcorenlp import StanfordCoreNLP
nlp=StanfordCoreNLP(r'D:\stanford_nlp',)

PART2：安裝過程問題

然而，很多朋友在上面的執行過程中，總遇到下面的問題（可能原因：coreNLP是使用Java編寫的，運作環境需要在JDK1.8，1.7貌似都不支援，需要引進 .jar 包）我當時也是特别郁悶，網上對于這個問題的解答比較少，這裡依據我的血淚史給大家做個分享，希望對大家有所幫助：

Python 3.* 版本Stanford nlp安裝及問題解決

開始安裝 java 的 JDK 了，我安裝的是：jdk-8u171-windows-x64（點選打開連結）

1）輕按兩下安裝包，進入安裝模式，運作->下一步（N）；

Python 3.* 版本Stanford nlp安裝及問題解決

Python 3.* 版本Stanford nlp安裝及問題解決

2）接着點選下一步或者，可以更改希望Java安裝的路徑；

Python 3.* 版本Stanford nlp安裝及問題解決

3）接着點選下一步或者，可以更改希望Java安裝的路徑

Python 3.* 版本Stanford nlp安裝及問題解決

4）安裝完成後，關閉頁面；

Python 3.* 版本Stanford nlp安裝及問題解決

5）安裝完成後我們就可以配置java的環境變量了。（最關鍵的部分）

Step1：進入“計算機”的“屬性”選項，選擇“進階系統設定”，如下圖所示：

Python 3.* 版本Stanford nlp安裝及問題解決

Step2：點選“進階系統設定”後，會看到如下圖所示的對話框，選擇“環境變量”：

Python 3.* 版本Stanford nlp安裝及問題解決

Step3：點選“環境變量”之後，會看到如下圖所示的對話框：

Python 3.* 版本Stanford nlp安裝及問題解決

Step4：接下來就是具體的配置過程了：

Step4.1：選擇上圖所示的“建立”:

Python 3.* 版本Stanford nlp安裝及問題解決

“變量名”：Java_Home

“變量值”： D:\jdk1.8.1_171

注：“變量值”這一欄主要填寫的是你安裝 java 的路徑，這裡根據個人的情況可能會有所不同。

Python 3.* 版本Stanford nlp安裝及問題解決

Step4.2：上步結束之後，選中環境變量中的“path”，如下圖所示：

Python 3.* 版本Stanford nlp安裝及問題解決

選中之後編輯：

Python 3.* 版本Stanford nlp安裝及問題解決

在“變量值”一欄的最前面添加如下的 code：

%Java_Home%\bin;%Java_Home%\jre\bin;

注意：上面的代碼最好一個字元不要差，因為Java_Home 已經限制了你的JDK 的路徑了，Java的每個版本的JDK 應該都是由這些東西構成的。

Python 3.* 版本Stanford nlp安裝及問題解決

Step4.3：上一步确定之後，再 “ 建立 ” ：

Python 3.* 版本Stanford nlp安裝及問題解決

“變量名”：ClassPath

“變量值”：.;%Java_Home%\bin;%Java_Home%\lib\dt.jar;%Java_Home%\lib\tools.jar

注：上面的代碼最好也是一個字元不變的貼上去，“變量值”最前面的 .; 不要漏掉。

做完上面的三個步驟之後，環境變量的配置已經完成了。

Python 3.* 版本Stanford nlp安裝及問題解決

Step5：檢查環境變量搭好了：調出“cmd”檢查：

Step5.1：輸入：“java”，你應該看到下面的東西：

Python 3.* 版本Stanford nlp安裝及問題解決

Step5.2：輸入： “javac” ，你應該看到下面的東西：

Python 3.* 版本Stanford nlp安裝及問題解決

Step5.3：輸入：“java -version”，你應該看到下面的東西：

Python 3.* 版本Stanford nlp安裝及問題解決

至此，我們的配置就全部完成了。

PART3：可以開始用安裝好的stanfordcorenlp進行詞性标注了。

這裡，我們拿一段文本來試運作：

from  stanfordcorenlp import StanfordCoreNLP
nlp=StanfordCoreNLP(r'D:\stanford_nlp',)

fin=open('news.txt','r',encoding='utf8')
fner=open('ner.txt','w',encoding='utf8')
ftag=open('pos_tag.txt','w',encoding='utf8')

for line in fin:
    line=line.strip()
    if len(line)<1:
        continue
    
    fner.write(" ".join([each[0]+"/"+each[1] for each in nlp.ner(line) if len(each)==2 ])+"\n")
    ftag.write(" ".join([each[0]+"/"+each[1] for each in nlp.pos_tag(line) if len(each)==2 ]) +"\n")
fner.close()
ftag.close()

Python 3.* 版本Stanford nlp安裝及問題解決

Python 3.* 版本Stanford nlp安裝及問題解決

Python 3.* 版本Stanford nlp安裝及問題解決

python中文詞性标注 standnlp jdk corenlp java環境

上一篇: 【Apache Solr系列】使用IKAnalyzer中文分詞以及自定義分詞字典

下一篇: Meta 将對 Magic Leap 投資數十億美元以開發下一代 AR 産品；中國移動暫停開通 eSIM 一号雙終端業務｜晚報

繼續閱讀

JDK1.6在LINUX下的安裝配置
Linux jdk java 終端 path command
08-07
Linux 下安裝配置jdk jre
Linux 軟體開發 jdk java path build 伺服器
08-07
Linux下JDK和tomcat的安裝配置
Linux centos web java tomcat jdk path
08-07
linux系統下安裝jdklinux系統下安裝jdk本文由個人總結，如需轉載使用請标明原著及原文位址
Linux jdk 環境變量
08-07
Ubuntu安裝JDK1.5
linux環境搭建 jdk ubuntu java android build path
08-07
JMX遠端監控
JMX jboss java tomcat jdk 伺服器
08-07
java基礎知識問答集
java基礎 java deprecated jdk string java開發工具 api
08-07
centos 下安裝 jdk
centos jdk
08-07
i = i++ 的困惑
程式設計語言彙編 jdk sun gcc java 測試
08-07
如何配置Eclipse進行Perl開發
jdk perl eclipse EPIC 正規表達式 java 平台
08-07
JAVA導入項目報錯Description Resource PathLocation Type Java compiler level does not match the version of
JAVA/eclipse實戰 java eclipse jdk Maven
08-07
數組複制
JavaSE string arrays class jdk 2010 C羅梅西足球克裡斯蒂亞諾·羅納爾多點球
08-07
JDK6新特性
java jdk scripting 腳本語言 javascript
08-07
關于JSch的問題描述
java JSch opensshl openssh jdk
08-07
基于jdk1.8的Vector源碼分析
java java集合源碼分析 jdk
08-07
JBoss,Geronimo和Glassfish初窺
J2ee開發 glassfish jboss weblogic jdk ubuntu bash
08-07