跟益达学Solr5之使用Ansj分词器

ok,直接开门见山，不绕弯子啦！基于上篇博客，我们知道了在solr中配置分词器有两种方式，一种是直接配置分词器类，比如：

</fieldtype>

一种是配置tokenizerfactory类，由于solr api中并没有内置类似ik，ansj这样的中文分词器的tokenizerfactory类，所以我们需要自己扩展，不过你们不用担心，我已经扩展好了。配置样例如下：

</analyzer>

我扩展的ansjtokenizerfactory源码如下：

public class ansjtokenizerfactory extends tokenizerfactory {

/**是否查询分词*/

private boolean query;

/**是否分析词干.进行单复数,时态的转换(只针对英文单词)*/

private boolean pstemming;

/**自定义停用词词典文件路径*/

private string stopwordsdir;

public ansjtokenizerfactory(map<string, string> args) {

super(args);

query = getboolean(args, "query", false);

pstemming = getboolean(args, "pstemming", false);

stopwordsdir = get(args, "stopwordsdir", "");

}

@override

public tokenizer create(attributefactory factory) {

if(query) {

return new ansjtokenizer(factory,new toanalysis(new forest[0]),stopwordsdir,pstemming);

}

return new ansjtokenizer(factory,new indexanalysis(new forest[0]),stopwordsdir,pstemming);

}

下面介绍如何在solr中使用ansj分词器，首先你需要在solr_home的core\lib目录下添加依赖的jar：

solr-analyzer-ansj-5.1.0.jar(这个jar包体积较小，请在底下的附件里下载)

nlp-lang-0.2.jar(这是ansj-seg-2.0.8.jar依赖的jar包)

如图：

然后在schema.xml中添加如下配置：

至于query，pstemming，stopwordsdir这3个配置参数的含义，请看我在源码中作的注释，如图：

query参数：分词的两个阶段：建立索引阶段和查询阶段，即表示是否为查询阶段分词，针对不同的分词阶段采用的分词策略是不一样的。具体看源码，如图：

pstemming：表示是否对英文单词进行单复数转换以及时态转换，比如apples还原成apple，loved还原成love,broken还原成break，注意pstemming参数仅仅是针对英文，因为只有英文才有单复数和时态形式。

stopwordsdir参数就很好理解了，就是你的自定义停用词词典的存放路径，

上面3个参数是可选的，不是必须配置的。

tokenizerfactory配置好了，然后你就在你的field中应用此分词器了，如图：

然后你需要把ansj的library.properties配置文件copy到e:\apache-tomcat-7.0.55\webapps\solr\web-inf\classes路径，如图：

library.properties配置如下：

#redress dic file path

ambiguitylibrary=e:/apache-tomcat-7.0.55/webapps/solr/web-inf/classes/library/ambiguity.dic

#path of userlibrary this is default library

userlibrary=e:/apache-tomcat-7.0.55/webapps/solr/web-inf/classes/library

#set real name

isrealname=true

比较恶心的是，anasj分词器的字典文件加载路径这里只能写死成绝对路径，因为它源码里加载字典文件是直接通过new file(dicpath)这种方式来实现的。当你在eclipse中运行，你的dicpath相对路径是你的项目根目录，而如果你的项目部署到tomcat，那dicpath的相对路径就是tomcat根目录下的bin，这确实比较啃爹，所以我这里干脆直接写成绝对路径，当然你可以把字典文件放到任意目录下，比如c:\library,不是非要放到tomcat下，这个我必须要澄清下。下图是ansj分词器在加载字典文件时比较恶心的实现方式：

如果改成这样方式加载字典文件会比较好点，我个人觉得：

this.getclass().getclassloader().getresourceasstream(dicpath);

这样你的字典文件路径dicpath的相对路径才是当前classpath。不过ansj里你把字典文件配置成绝对路径也可以，不一定非要相对路径，这点仁者见仁智者见智吧！骚年，你怎么看？

接着你需要在e:\apache-tomcat-7.0.55\webapps\solr\web-inf\classes目录下新建一个library目录，然后把ansj自带的两个字典文件ambiguity.dic和default.dic复制进去，然后新建一个ext.dic文件。相关的字典文件和配置文件我待会儿会上传到附件里供你们参考。其中ext.dic是用户自定义扩展字典文件，如图：

对于类似这种网络新词，ansj分词器默认是分不出来的，这时就需要定义自定义扩展字典。

你应该已经发现了，我们在配置ansjtokenizerfactory的时候配置了stopwordsdir="stopwords/stopwords.dic"自定义停用词加载路径，这里的stopwordsdir是相对于当前classpath的即e:\apache-tomcat-7.0.55\webapps\solr\web-inf\classes，所以我们需要在e:\apache-tomcat-7.0.55\webapps\solr\web-inf\classes下新建stopwords文件夹，然后在stopwords文件夹下新建一个stopwords.dic字典文件，stopwords.dic内容如下：

这里我只加两个词语作为演示，你们可以根据你自己的需求随意添加你自己的停用词。需要解释下的是，之所以stopwordsdir参数是相对于当前classpath，是因为我在实现ansjtokenizerfactory时是采用这样的方式来加载词典文件的，如图：

这一切准备好了，你就开始进行分词测试了，请如图进行测试：

上图是对自定义新词进行分词测试，么么哒和啪啪啪之所以能被分出来，是因为我们在library\ext.dic自定义词典文件中添加了那两个词语。

上图是用来测试pstemming参数即英文单词的单复数转换以及时态转换，loved是过去式，自动被转换成原型love

上图是用来测试自定义停用词的，如果你看到如图效果，说明你配置成功了！

至于anseg分词器我维护的最新源码我有空会上传到我的github上，请关注我的github

益达q-q: 7-3-6-0-3-1-3-0-5

益达的q-q群： 1-0-5-0-9-8-8-0-6

转载：http://iamyida.iteye.com/blog/2220833

跟益达学Solr5之使用Ansj分词器

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method