天天看點

如何在ubuntu使用hanlp

前言

  以前,我對大部分的進行中文分詞都是使用python的結巴分詞工具,該分詞工具是線上調用API, 關于這個的分詞工具的原理介紹,我推薦一個好的部落格:

http://blog.csdn.net/daniel_ustc/article/details/48195287.

  随着項目的需求,我需要使用斯坦福大學的自然語言處理包standford作依存關系樹的建構,然而standford很調皮地不讓我做中文分詞處理(老報錯).無奈之下,我隻能使用第三方的分詞工具.由于standford的源碼是java,我尋找了一個與之對應的分詞工具,即hanlp.

HanLP的安裝使用

  HanLP的一個很大的好處是離線開源工具包,換而言之,它不僅提供免費的代碼免費下載下傳,而且将辛苦收集的詞典也對外公開啦,此誠乃一大無私之舉.我在安裝的時候,主要參照這份部落格:

http://m.blog.csdn.net/article/details?id=50938796

  不過該部落客要介紹的是windows如何使用hanlp,而ubuntu是linux的,是以會有所差別.下面我主要介紹的是在unbuntu的安裝使用.

安裝eclipse

在終端輸入 sudo get-apt install eclipse-platform實作一鍵安裝,然後在應用程式找到eclipse

如何在ubuntu使用hanlp

下載下傳hanlp

  通路hanlp的官方網址:

http://hanlp.linrunsoft.com/services.html 分别下載下傳hanlp.jar(程式包), data.zip(詞典庫),hanlp.properties(配置檔案),而後面是說明文檔,可以不下載下傳
如何在ubuntu使用hanlp
在下載下傳的data.zip的時候,下載下傳連結有點隐晦,點選藍色的data-for-1.2.11.zip,就會出現百度雲連結啦
如何在ubuntu使用hanlp

導入jar包

導入hanlp到eclipse之中,具體的流程可以參照網址:

http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html

導入配置檔案

将hanlp.propertie複制至項目的bin目錄中,修改詞典的路徑

将root的路徑修改至data儲存的路徑(記得data要解壓)

作者:Quincy1994

來源:CSDN

原文:

https://blog.csdn.net/qq_30843221/article/details/52326254

版權聲明:本文為部落客原創文章,轉載請附上博文連結!

如何在ubuntu使用hanlp

程式設計代碼示範

如何在ubuntu使用hanlp

運作結果:

如何在ubuntu使用hanlp

文章來源于Quincy1994的部落格

繼續閱讀