天天看點

Lucene中的詞典索引FSTdoc檔案TermFreqs儲存了term的所有文檔号、詞頻資訊,TermFreqs中按塊

作者:從頭開始自學java

Lucene中的詞典索引FST

doc檔案 TermFreqs儲存了term的所有文檔号、詞頻資訊,TermFreqs中按塊存儲,使用SkipData實作這些塊之間的快速跳轉

pos檔案 position在Lucene中描述的是一個term在一篇文檔中的位置,并且存在一個或多個position,TermPosition記錄一個term的position資訊

pay檔案 pay檔案用來存儲term的payload和offset的資訊

tim檔案 .tim(TermDictionary)檔案中存放了每一個term的TermStats,TermStats記錄了包含該term的文檔數量,term在這些文檔中的詞頻總和;另外還存放了term的TermMetadata,TermMetadata記錄了該term在.doc、.pos、.pay檔案中的資訊,這些資訊即term在這些檔案中的起始位置,即儲存了指向這些文檔的索引;還存放了term的Suffix,對于有部分相同字首值的term,隻需存放這些term不相同的字尾值,即Suffix。這裡TermMate資訊中有幾個很重要的資料,就是指向前面doc、pos、pay檔案的指針。

Lucene中的詞典索引FSTdoc檔案TermFreqs儲存了term的所有文檔号、詞頻資訊,TermFreqs中按塊
Lucene中的詞典索引FSTdoc檔案TermFreqs儲存了term的所有文檔号、詞頻資訊,TermFreqs中按塊
Lucene中的詞典索引FSTdoc檔案TermFreqs儲存了term的所有文檔号、詞頻資訊,TermFreqs中按塊
Lucene中的詞典索引FSTdoc檔案TermFreqs儲存了term的所有文檔号、詞頻資訊,TermFreqs中按塊

繼續閱讀