HanLP是一系列模型與算法組成的NLP工具包,由大快搜尋主導并完全開源,目标是普及自然語言處理在生産環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
開源網址:HanLP: Han Language Processing
但由于hanlp是用java來實作的,要在python中使用hanlp,隻能通過調用pyhanlp這個包來。
但是pyhanlp裡面有一些功能仍然不支援python直接調用,比如漢字轉拼音,這時候就需要從python中啟動jvm并指定Hanlp的jar路徑來使用其他功能了。
2 、下載下傳并配置檔案(1)從開源網址中下載下傳jar、data、hanlp.properties并修改配置檔案:
1、下載下傳:data.zip
下載下傳後解壓到任意目錄,接下來通過配置檔案hanlp.properties告訴HanLP資料包的位置。
data
│
├─dictionary
└─model
使用者可以自行增删替換,如果不需要句法分析等功能的話,随時可以删除model檔案夾。
3 、下載下傳jar和配置檔案:hanlp-release.zip(1)配置檔案hanlp.properties的作用是告訴HanLP資料包的位置,隻需修改第一行為data的父目錄即可:
root=D:/JavaProjects/HanLP/
比如data目錄是/Users/hankcs/Documents/data,那麼root=/Users/hankcs/Documents/ 。
(2)從python中啟動jvm以及添加jar包路徑

其中-Djava.class.path是用來添加jar包到classpath中,然後用startJVM來啟動jvm。
startJVM第一個參數是系統内的jvm位置,第二個為*arg參數,此處放置classpath。
以上得到的是java的ArrayList類型,需要将他裝換為string類型:
結果如下:
--------------------