天天看點

Hanlp漢字轉拼音使用python調用詳解

1、 hanlp簡介

HanLP是一系列模型與算法組成的NLP工具包,由大快搜尋主導并完全開源,目标是普及自然語言處理在生産環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

開源網址:HanLP: Han Language Processing

但由于hanlp是用java來實作的,要在python中使用hanlp,隻能通過調用pyhanlp這個包來。

但是pyhanlp裡面有一些功能仍然不支援python直接調用,比如漢字轉拼音,這時候就需要從python中啟動jvm并指定Hanlp的jar路徑來使用其他功能了。

2 、下載下傳并配置檔案

(1)從開源網址中下載下傳jar、data、hanlp.properties并修改配置檔案:

1、下載下傳:data.zip

下載下傳後解壓到任意目錄,接下來通過配置檔案hanlp.properties告訴HanLP資料包的位置。

data

├─dictionary

└─model

使用者可以自行增删替換,如果不需要句法分析等功能的話,随時可以删除model檔案夾。

3 、下載下傳jar和配置檔案:hanlp-release.zip

(1)配置檔案hanlp.properties的作用是告訴HanLP資料包的位置,隻需修改第一行為data的父目錄即可:

root=D:/JavaProjects/HanLP/

比如data目錄是/Users/hankcs/Documents/data,那麼root=/Users/hankcs/Documents/ 。

(2)從python中啟動jvm以及添加jar包路徑

Hanlp漢字轉拼音使用python調用詳解

其中-Djava.class.path是用來添加jar包到classpath中,然後用startJVM來啟動jvm。

startJVM第一個參數是系統内的jvm位置,第二個為*arg參數,此處放置classpath。

Hanlp漢字轉拼音使用python調用詳解

以上得到的是java的ArrayList類型,需要将他裝換為string類型:

Hanlp漢字轉拼音使用python調用詳解

結果如下:

Hanlp漢字轉拼音使用python調用詳解
4 、最後記得關閉JVM
Hanlp漢字轉拼音使用python調用詳解

--------------------