本來想通過python調用Java實作Hanlp的使用,參考文章:
http://t.cn/RUrIF7zpython可以用easy_install安裝一些軟體
1.JPype使用介紹
參考:
http://michael-paul.iteye.com/blog/1055786Python 作為一種靈活的軟體開發語言在當今被廣泛使用。在軟體開發過程中,有時需要在 Python 項目中利用既有的 Java 代碼,已達到節省時間和開發成本的目的。是以,找到一個 Python 代碼調用 Java 代碼的橋梁是非常有意義的。 JPype 就是這樣的一個工具,利用它可以使 Python 程式友善的調用 Java 代碼,進而擴充 Python 語言的能力,彌補 Python 語言的不足。本文介紹了如何利用 JPype 整合 Python 程式和 Java 程式的一些基本方法。
下面是一個簡單的 python 程式,通過 JPype 調用 Java 的列印函數,列印出字元串。
清單 1. hello world
import jpype
jvmPath = jpype.getDefaultJVMPath()
jpype.startJVM(jvmPath)
jpype.java.lang.System.out.println( “ hello world! ” )
jpype.shutdownJVM()
運作該例程的時候,getDefaultJVMPath()找不到預設的jvm路徑,檢查發現在指令行下輸入java和javac都是沒問題,而且已經配置好環境變量。找到jpype官方文檔給的例程(
http://jpype.sourceforge.net/doc/user-guide/userguide.html),使用說明(
http://blog.csdn.net/niuyisheng/article/details/9002926)發現曆程中jdk中jre檔案有client檔案夾,而現在版本隻有server檔案夾,然後找一篇文章介紹jvm中client模式和server模式的差別(
http://ryxxlong.iteye.com/blog/1696537),發現他們用的都是jdk1.6,而現在的版本是jdk1.8,猜想新版本已經沒有該功能了,把jdk換成1.6版本還是發現沒有client檔案夾,放棄在python中調用java包Hanlp,直接在java程式中使用hanlp。
11大Java開源中文分詞器的使用方法和分詞效果對比:
http://my.oschina.net/apdplat/blog/412921?fromerr=jF95Yz4r2.關于HanLP
HanLP是一個緻力于向生産環境普及NLP技術的開源Java工具包,支援:
中文分詞(N-最短路分詞、CRF分詞、索引分詞、使用者自定義詞典、詞性标注),
命名實體識别(中國人名、音譯人名、日本人名、地名、實體機構名識别),
關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析(MaxEnt依存句法分析、神經網絡依存句法分析)。
Hanlp的安裝和入門說明:
http://hanlp.linrunsoft.com/doc/_build/html/getting_started.html#hanlpHanLP 中的資料分為 詞典 和 模型 ,其中 詞典 是詞法分析必需的, 模型 是句法分析必需的
官網demo:
https://github.com/hankcs/HanLP/tree/master/src/test/java/com/hankcs/demo
文章來源于zhangqiang1104的部落格