天天看点

基于 Ansj 的 elasticsearch 2.3.1 中文分词插件

前言

这是一个elasticsearch的中文分词插件,基于ansj中文分词。发起者onni大神。

2.3.1插件安装

进入elasticsearch目录运行如下命令

进入es目录执行如下命令

更新内容

elasticsearch更新2.3.1

ansj_seg升级至3.7.3

elasticsearch更新2.1.1

ansj_seg升级至3.5

新增http的_ansj接口,用于查看ansj分词词性

新增http的_cat/ansj接口,作用同上,显示为cat方式

新增http的_cat/[index]/analyze接口,和_analyze作用一样,显示为cat方式

更方便的配置

测试

创建测试索引

添加索引内容

查询索引

浏览器访问:

如果你想把ansj作为你的默认分词需要在elasticsearch.yml加入如下配置:

关于分词器不得不说的那点小事

目前默认内置三个分词器

当然如果你有心仔细观察日志看到了实例化了n多分词器如下

额 只有三个其他都是别名

索引分词

index_ansj 是索引分词,尽可能分词处所有结果 example

query_ansj 是搜索分词,是索引分词的子集,保证了准确率 example

用户自定义词典优先的分词方式 (user_ansj=dic_ansj)

dic_ansj 是用户自定义词典优先策略

====================================分割线================================

继续阅读