天天看点

从Lucene到Elasticsearch-读书笔记

布尔检索模型

布尔检索法是指利用布尔运算符连接各个检索词,然后由计算机进行逻辑运算,找出所需信息的一种检索方法。

布尔检索模型中主要有AND、OR、NOT三种逻辑运算,布尔逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。

tf-idf中文称为词频-逆文档频率

用以计算词项对于一个文档集或一个语料库中的一份文件的重要程度。

举个例子,一篇3000字的文章中词语“足球”出现了3次,我们很难断定这篇文章就是和足球相关的,但是一篇140字的微博中同样出现三次“足球”,基本可以断定微博内容和足球有关。

分词器

<code>Analyzer analyzer = new StandardAnalyzer();</code>

标准分词:class org.apache.lucene.analysis.standard.StandardAnalyzer 中|华|人|民|共|和|国|简|称|中|国|是|一|个|有|13|亿|人|口|的|国|家|
空格分词:class org.apache.lucene.analysis.core.WhitespaceAnalyzer 中华人民共和国简称中国,|是一个有13亿人口的国家|
简单分词:class org.apache.lucene.analysis.core.SimpleAnalyzer 中华人民共和国简称中国|是一个有|亿人口的国家|
二分法分词:class org.apache.lucene.analysis.cjk.CJKAnalyzer 中华|华人|人民|民共|共和|和国|国简|简称|称中|中国|是一|一个|个有|13|亿人|人口|口的|的国|国家|
关键字分词:class org.apache.lucene.analysis.core.KeywordAnalyzer 中华人民共和国简称中国, 是一个有13亿人口的国家|