天天看点

2.4 ElasticSearch分词之中文分词

1.简介

中文分词是指将一个汉字序列切分为一个个单词的操作。在英文中,单词之间以空格作为自然分界符,汉语中的词是没有形式上的分界符的,这是中文分词的一个难点。比如“乒乓球拍卖完了”这个汉字序列,分为“乒乓球拍/卖/完了”和“乒乓球/拍卖/完了”都是合理的。

2.常用的中文分词系统

(1).IK

  • 实现中英文单词的切分,支持ik_smart、ik_maxword等模式
  • 可自定义词库,支持热更新分词词典
  • ​​https://github.com/medcl/elasticsearch-analysis-ik​​

(2).jieba

  • python中最流行的分词系统,支持分词和词性标注
  • 支持繁体分词、自定义词典和并行分词等
  • ​​https://github.com/singlee/elasticsearch-jieba-plugin​​
  • 由一系列模型与算法组成的java工具包,目标是普及自然语言处理
  • ​​https://github.com/hankcs/HanLP​​
  • 清华大学推出的一套中文词法分析工具包,具有中文分词和词性标注功能
  • ​​https://github.com/microbun/elasticsearch-thulac-plugin​​

继续阅读