天天看点

Lucene中的词典索引FSTdoc文件TermFreqs保存了term的所有文档号、词频信息,TermFreqs中按块

作者:从头开始自学java

Lucene中的词典索引FST

doc文件 TermFreqs保存了term的所有文档号、词频信息,TermFreqs中按块存储,使用SkipData实现这些块之间的快速跳转

pos文件 position在Lucene中描述的是一个term在一篇文档中的位置,并且存在一个或多个position,TermPosition记录一个term的position信息

pay文件 pay文件用来存储term的payload和offset的信息

tim文件 .tim(TermDictionary)文件中存放了每一个term的TermStats,TermStats记录了包含该term的文档数量,term在这些文档中的词频总和;另外还存放了term的TermMetadata,TermMetadata记录了该term在.doc、.pos、.pay文件中的信息,这些信息即term在这些文件中的起始位置,即保存了指向这些文档的索引;还存放了term的Suffix,对于有部分相同前缀值的term,只需存放这些term不相同的后缀值,即Suffix。这里TermMate信息中有几个很重要的数据,就是指向前面doc、pos、pay文件的指针。

Lucene中的词典索引FSTdoc文件TermFreqs保存了term的所有文档号、词频信息,TermFreqs中按块
Lucene中的词典索引FSTdoc文件TermFreqs保存了term的所有文档号、词频信息,TermFreqs中按块
Lucene中的词典索引FSTdoc文件TermFreqs保存了term的所有文档号、词频信息,TermFreqs中按块
Lucene中的词典索引FSTdoc文件TermFreqs保存了term的所有文档号、词频信息,TermFreqs中按块

继续阅读