大白話告訴你反向索引是個啥

很多搜尋引擎都是基于反向索引，比如luncene，solr以及elasticsearch

聊倒排搜尋之前先來看看正排索引，正排其實就是資料庫表，他通過id和資料進行關聯，如下：

我們可以通過搜尋id，來獲得相應的資料，也能删除資料。你買了一本書，書的目錄其實也是正排搜尋。

假設現在我要搜

蘋果

倆字，那麼他會對這張表格中每一行的資料做比對，去查找一下，是否包含

蘋果

這兩個字，從第一條比對到最後一條，如果一張表中資料量不多，幾萬，十幾萬，那麼問題不大，但是一旦資料量有上百萬，上千萬，那麼全表掃描這種的搜尋性能就會有影響。

其次，這個時候我想搜尋

蘋果iPhone

，那麼我們無法把這詞彙拆開再到資料庫去搜尋。

與正排是反着來的，他會把文檔内容進行分詞，比如

蘋果公司釋出iPhone

是一個文檔資料，當我們把他存入到搜尋引擎中去的時候，會有一個文檔id，這個文檔id就類似于資料庫主鍵。但是這文檔存儲的時候和資料庫不一樣，他會進行一個分詞，參照上面的表格，分詞後的結果如下：

每一個詞彙都會和文檔id關聯起來，可以根據詞彙來找到所有出現的id清單，如下：

假設現在我要搜尋

iPhone

，如果是資料庫搜尋，假設有1億條資料，那麼會比對1億次，全表掃描。最後再把資料傳回出來。

如果是搜尋引擎，那麼有可能第一次就把所有文檔資料給查出來，當然也有可能是第N次，當然他肯定要比資料庫的搜尋效率更高。如圖中位置，他會直接把

1001，1003

兩個文檔傳回。

可能會有同學會問，資料庫和搜尋引擎都是1000萬資料，搜尋的詞彙在搜尋引擎中正好是第1000萬條，那麼會不會慢，其實這個肯定會比資料庫更快，資料庫要比對是一個文本中的内容和關鍵詞比對，而搜尋引擎是直接把關鍵字做比對，效率肯定後者更快。

官網itzixi.com

微信公衆号：BeJavaGod

新浪微網誌

知乎

簡書

cnblogs

今日頭條

豆瓣

--> 同步更新