Lucene:评分机制

使用 Hits 对象可以得到某个文档的得分。本文将对评分和 Lucene 的评分机制进行介绍。

1 理解评分的概念

评分其实是搜索引擎中很重要的一个概念。通常情况下，当用户输入一个关键字，搜索引擎接收到信息后即可开始进行检索。对于检索到的结果，需要按一定的顺序返回给用户。因此，需要引入一种机制来对检索结果进行排序，以便更加合理地将结果返回给用户。

评分机制就是对检索结果按某种标准进行评估，然后按分值的高低来对结果进行排序。同时，对于一个商用的搜索引擎来说，评分机制是其收入来源的重要部分。例如某公司向搜索引擎缴纳一定数量的费用，则该搜索引擎就将其搜索结果中关于该公司的部分公值加大，以便能在检索结果返回给用户时让该公司获得更加靠前的位置。这种做法增加了用户浏览该公司网页和产品的机会，无形之中也给该公司带来了更大的社会影响和潜在商机。因此，评分机制从各方面来说都是相当重要的。

2 Lucene评分算法

那么，Lucene中是如何确定各个Document评分的呢？下面将详细介绍该功能的基本原理。

文档的得分是在用户进行检索时实时计算出来的。如果在建立索引时就已经将每个文档的得分计算好，那么当用户输入任何关键字时，得分最高的文档都会被排在返回结果的最前面，这显然是不合理的。

因此，所有文档的得分应当都与用户输入的关键字有关系，而且是实时运算的结果。其实，所谓得分，可以简单理解成是某个关键字在某文档中出现的频率。

图11-6所示的公式就是Lucene用于计算某个关键字在对应于某文档的得分。

Lucene:评分机制

图11-6 Lucene的得分公式

在Lucene得分公式中，已经包含了影响文档评分的各种因素。在表11.1中详细介绍了每一种因素对搜索结果评分的影响作用。

表11-1 Lucene得分公式的解释

因素	在公式中的作用描述
tf(t in d)	词条t在文档d中出现的词频
idf( t )	词条t在文档中的倒排词频
boost(t.field in d)	在索引过程中设置的字段参数
lengthNorm(t.field in d)	字段的标准化值，表明在字段中存储了多少词条，这个数值是在索引过程中计算出来的，并且也存储在索引中
coord(q, d)	协调因子，它的计算是基于文档d中所包含的所有可供查询的词条数量
queryNorm(q)	在给出每个查询条目的方差和后，计算某查询的标准化值

3 改变文档的得分

除了内置的得分算法外，Lucene还提供了一种方法来改变每个文档的得分。

在代码11.3中，初始化Document后，使用了Document的setBoost方法来改变一下文档的boost因子。这种做法的实际目的是将文档的得分乘以这个因子，以这个新的数作为文档的得分。

代码11.3 使用Boost的例子

public static void buildIndex() throws Exception {

//生成新的Document对象，下同

Document doc1 = new Document();

doc1.add(Field.Text("contents", "word1 word"));

doc1.add(Field.Keyword("path", "path//document1.txt"));

//改变文档的boost因子，下同

doc1.setBoost(1.0f);

Document doc2 = new Document();

doc2.add(Field.Text("contents", "word2 word"));

doc2.add(Field.Keyword("path", "path//document2.txt"));

doc2.setBoost(0.1f);

Document doc3 = new Document();

doc3.add(Field.Text("contents", "word3 word"));

doc3.add(Field.Keyword("path", "path//document3.txt"));

doc3.setBoost(0.5f);

Document doc4 = new Document();

doc4.add(Field.Text("contents", "word4 word"));

doc4.add(Field.Keyword("path", "path//document4.txt"));

doc4.setBoost(0.2f);

Document doc5 = new Document();

doc5.add(Field.Text("contents", "word5 word"));

doc5.add(Field.Keyword("path", "path//document5.txt"));

doc5.setBoost(0.8f);

Document doc6 = new Document();

doc6.add(Field.Text("contents", "word6 word"));

doc6.add(Field.Keyword("path", "path//document6.txt"));

doc6.setBoost(0.1f);

Document doc7 = new Document();

doc7.add(Field.Text("contents", "word7 word"));

doc7.add(Field.Keyword("path", "path//document7.txt"));

doc7.setBoost(0.5f);

Document doc8 = new Document();

doc8.add(Field.Text("contents", "word8 word"));

doc8.add(Field.Keyword("path", "path//document8.txt"));

doc8.setBoost(0.7f);

Document doc9 = new Document();

doc9.add(Field.Text("contents", "word9 word"));

doc9.add(Field.Keyword("path", "path//document9.txt"));

doc9.setBoost(0.2f);

Document doc10 = new Document();

doc10.add(Field.Text("contents", "word10 word"));

doc10.add(Field.Keyword("path", "path//document10.txt"));

doc10.setBoost(0.4f);

Document doc11 = new Document();

doc11.add(Field.Text("contents", "word11 word"));

doc11.add(Field.Keyword("path", "path//document11.txt"));

Document doc12 = new Document();

doc12.add(Field.Text("contents", "word12 word"));

doc12.add(Field.Keyword("path", "path//document12.txt"));

IndexWriter writer = new IndexWriter("c://index", new StandardAnalyzer(), true);

//添加到索引中，下同

writer.addDocument(doc1);

writer.addDocument(doc2);

writer.addDocument(doc3);

writer.addDocument(doc4);

writer.addDocument(doc5);

writer.addDocument(doc6);

writer.addDocument(doc7);

writer.addDocument(doc8);

writer.addDocument(doc9);

writer.addDocument(doc10);

writer.addDocument(doc11);

writer.addDocument(doc12);

writer.close();

}

代码11.3的运行效果，如图11-7所示。

Lucene:评分机制

图11-7 改变Boost后的运行效果

从图11-7可以看出，每个文档的分值已经发生了变化，其中，由于文档1、11、12的boost值和原来一样，因此分值排在最前面，显示的顺序也到了最前面。而其他的文档则已经因为boost值发生了改变，显示的顺序也发生了变化。可以看到，排在最后一个位置的文档是文档6，它的boost值为0.1，所以分值也成了原来的十分之一。

像代码11.3中这样通过Boost值来改变分值的方式相当灵活，可以很有效的达到对文档顺序进行控制的目的。不过，这仍然不是一种理想的方式，因为在建立索引时还需要人为地指定每个文档的boost值。有关排序的更高级话题，将在后面的章节来说明。

Lucene:评分机制

1 理解评分的概念

2 Lucene评分算法

3 改变文档的得分

继续阅读

什么是BNF范式

swift资料合集

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

30天了解30种技术系列---(10)面向Cloud的搜索引擎 ElasticSearch

hdu7108哈希