前言
以前,我對大部分的進行中文分詞都是使用python的結巴分詞工具,該分詞工具是線上調用API, 關于這個的分詞工具的原理介紹,我推薦一個好的部落格:
http://blog.csdn.net/daniel_ustc/article/details/48195287.随着項目的需求,我需要使用斯坦福大學的自然語言處理包standford作依存關系樹的建構,然而standford很調皮地不讓我做中文分詞處理(老報錯).無奈之下,我隻能使用第三方的分詞工具.由于standford的源碼是java,我尋找了一個與之對應的分詞工具,即hanlp.
HanLP的安裝使用
HanLP的一個很大的好處是離線開源工具包,換而言之,它不僅提供免費的代碼免費下載下傳,而且将辛苦收集的詞典也對外公開啦,此誠乃一大無私之舉.我在安裝的時候,主要參照這份部落格:
http://m.blog.csdn.net/article/details?id=50938796不過該部落客要介紹的是windows如何使用hanlp,而ubuntu是linux的,是以會有所差別.下面我主要介紹的是在unbuntu的安裝使用.
安裝eclipse
在終端輸入 sudo get-apt install eclipse-platform實作一鍵安裝,然後在應用程式找到eclipse

下載下傳hanlp
通路hanlp的官方網址:
http://hanlp.linrunsoft.com/services.html 分别下載下傳hanlp.jar(程式包), data.zip(詞典庫),hanlp.properties(配置檔案),而後面是說明文檔,可以不下載下傳導入jar包
導入hanlp到eclipse之中,具體的流程可以參照網址:
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html導入配置檔案
将hanlp.propertie複制至項目的bin目錄中,修改詞典的路徑
将root的路徑修改至data儲存的路徑(記得data要解壓)
作者:Quincy1994
來源:CSDN
原文:
https://blog.csdn.net/qq_30843221/article/details/52326254版權聲明:本文為部落客原創文章,轉載請附上博文連結!
程式設計代碼示範
運作結果:
文章來源于Quincy1994的部落格