天天看点

搜索引擎solr系列---solr分词配置

  对于string类型,比如在你的core/conf/manage-schema文件中,配置一个字段类型为string类型,如果查询符合“我是中国人”的数据,它就认为“我是中国人”是一个词语。

  但是如果你将该字段设置成了分词,即配置成了text_ik类型,就可能匹配“我”、“中国人”、“中国”、“中”、“人”带有这些字的该字段数据都可能被查询到。这就是分词带来的结果。具体要按照各自的业务来配置是否分词,分词对于大文本字段设置是合理的,但是对于小字段,设置分词是没必要的,甚至有相反的结果。比如你的某一个叫姓名的字段设置了分词,还不如设置string,查询时模糊匹配效果最好,(模糊匹配就是查询条件两边加上*),当然也要看自己业务需求是什么。

 这里以dkdz为例,设置之前,在solr客户端查看是如下结果:

不好意思,我图贴错了,下边的3处应该是dkdz,不是dkbm!!

 配置分词如下:

搜索引擎solr系列---solr分词配置

 配置之后,在solr客户端的core admin中,reload该core,再次查看,变成如下页面:

搜索引擎solr系列---solr分词配置

  如果变成了上边这种结果,就说明分词成功了。对于分词后的字段,如果在查询结果上有歧义,最好是来到solr客户端的上边位置,看下你的条件是不是因为分词,给分成了不是你想要的那种结果。

下一篇写,分词添加自定义扩展词库