ElasticSearch（ES）反向索引原理

2023-06-19 00:11:11

轉載自：https://www.jianshu.com/p/323547de1bb2

例如，假設我們有兩個文檔，每個文檔的content域包含如下内容：

文檔一：The quick brown fox jumped over the lazy dog

文檔二：Quick brown foxes leap over lazy dogs in summer

為了建立反向索引，我們首先将每個文檔的content域拆分成單獨的詞（我們稱它為詞條或tokens），建立一個包含所有不重複詞條的排序清單，然後列出每個詞條出現在哪個文檔。結果如下所示：

現在，如果我們想搜尋quick brown，我們隻需要查找包含每個詞條的文檔：

結論：

如果我們僅使用計算比對詞條數量的簡單相似性算法，那麼，我們可以說，對于我們查詢的相關性來講，第一個文檔比第二個比對度更高

但是，我們目前的反向索引有一些問題：（大小寫、同義詞，擴充詞）

使用前面的索引搜尋 +Quick +fox 不會得到任何比對文檔。（ +字首表明這個詞必須存在，即，隻有同時出現Quick和fox的文檔才滿足這個查詢條件），雖然第一個文檔包含quick fox，第二個文檔包含Quick foxes。

我們的使用者可以合理的期望兩個文檔與查詢比對。我們可以做的更好。

如果我們将詞條規範為标準模式，那麼我們可以找到與使用者搜尋的詞條不完全一緻，但具有足夠相關性的文檔。例如：

現在索引看上去像這樣：

這還遠遠不夠。我們搜尋+Quick +fox仍然會失敗，因為在我們的索引中，已經沒有Quick了。但是，如果我們對搜尋的字元串使用與content域相同的标準化規則，會變成查詢+quick +fox，這樣兩個文檔都會比對！

繼續閱讀