IK分詞器使用
- IK分詞器
- 下載下傳IK分詞器插件
- ElasticSearch配置ik分詞器
- 自定義分詞器
IK分詞器
IK Analyzer是一個開源的,基于java語言開發的輕量級的中文分詞工具包,功能很強大。其實ElasticSearch本帶有分詞器,對英文的支援非常好,對中文分詞不是很好。當然還有其他的分詞器比如HanLp
下載下傳IK分詞器插件
https://github.com/medcl/elasticsearch-analysis-ik(注意:下載下傳的版本需要與ElasticSearch對應,ElasticSearch是7.2的,analysis-ik也必須是7)
下載下傳壓縮包後,可以根據官網的配置方法,大部分部落格都是根據官網的方法來配置的,需要maven編譯
ElasticSearch配置ik分詞器
編譯後把target/release目錄下的elasticsearch-analysis-ik-1.3.0.zip上傳到/usr/local/elasticsearch-1.4.4/plugins/analysis-ik目錄下然後使用unzip解壓。
把下載下傳的ik插件中config目錄下的檔案拷貝到/usr/local/elasticsearch-1.4.4/config目錄下,這些檔案時ik的配置檔案,custom是自定義詞庫檔案。
重新開機es
有的部落格提到修改elasticsearch.yml檔案,把ik分詞器設定為es的預設分詞器。我添加這句配置後報錯,不知道什麼原因,可能是7.2的不支援這種配置了
index.analysis.analyzer.default.type:ik
自定義分詞器
1:建立一個dic檔案,編碼格式必須為utf-8無BOM格式,每個詞一行多個詞需要換行。
2:将自定義的dic檔案上傳到/usr/local/elasticsearch-1.4.4/config/custom目錄下
3:修改ik的配置檔案/usr/local/elasticsearch-1.4.4/config/IKAnalyzer.cfg.xml,在其中指定自定義的dic檔案。
4:重新開機es
原文:https://blog.csdn.net/ty4315/article/details/52475474