基于Lucene查詢原理分析Elasticsearch的性能

前言

Elasticsearch是一個很火的分布式搜尋系統，提供了非常強大而且易用的查詢和分析能力，包括全文索引、模糊查詢、多條件組合查詢、地理位置查詢等等，而且具有一定的分析聚合能力。因為其查詢場景非常豐富，是以如果泛泛的分析其查詢性能是一個非常複雜的事情，而且除了場景之外，還有很多影響因素，包括機型、參數配置、叢集規模等等。本文主要是針對幾種主要的查詢場景，從查詢原理的角度分析這個場景下的查詢開銷，并給出一個大概的性能數字，供大家參考。

Lucene查詢原理

本節主要是一些Lucene的背景知識，了解這些知識的同學可以略過。

Lucene的資料結構和查詢原理

Elasticsearch的底層是Lucene，可以說Lucene的查詢性能就決定了Elasticsearch的查詢性能。關于Lucene的查詢原理大家可以參考以下這篇文章：

Lucene查詢原理

Lucene中最重要的就是它的幾種資料結構，這決定了資料是如何被檢索的，本文再簡單描述一下幾種資料結構：

FST：儲存term字典，可以在FST上實作單Term、Term範圍、Term字首和通配符查詢等。
倒排鍊：儲存了每個term對應的docId的清單，采用skipList的結構儲存，用于快速跳躍。
BKD-Tree：BKD-Tree是一種儲存多元空間點的資料結構，用于數值類型(包括空間點)的快速查找。
DocValues：基于docId的列式存儲，由于列式存儲的特點，可以有效提升排序聚合的性能。

組合條件的結果合并

了解了Lucene的資料結構和基本查詢原理，我們知道：

對單個詞條進行查詢，Lucene會讀取該詞條的倒排鍊，倒排鍊中是一個有序的docId清單。
對字元串範圍/字首/通配符查詢，Lucene會從FST中擷取到符合條件的所有Term，然後就可以根據這些Term再查找倒排鍊，找到符合條件的doc。
對數字類型進行範圍查找，Lucene會通過BKD-Tree找到符合條件的docId集合，但這個集合中的docId并非有序的。

現在的問題是，如果給一個組合查詢條件，Lucene怎麼對各個單條件的結果進行組合，得到最終結果。簡化的問題就是如何求兩個集合的交集和并集。

1. 對N個倒排鍊求交集

上面Lucene原理分析的文章中講過，N個倒排鍊求交集，可以采用skipList，有效的跳過無效的doc。

2. 對N個倒排鍊求并集

處理方式一：仍然保留多個有序清單，多個有序清單的隊首構成一個優先隊列(最小堆)，這樣後續可以對整個并集進行iterator(堆頂的隊首出堆，隊列裡下一個docID入堆)，也可以通過skipList的方式向後跳躍(各個子清單分别通過skipList跳)。這種方式适合倒排鍊數量比較少(N比較小)的場景。

處理方式二：倒排鍊如果比較多(N比較大)，采用方式一就不夠劃算，這時候可以直接把結果合并成一個有序的docID數組。

處理方式三：方式二中，直接儲存原始的docID，如果docID非常多，很消耗記憶體，是以當doc數量超過一定值時(32位docID在BitSet中隻需要一個bit，BitSet的大小取決于segments裡的doc總數，是以可以根據doc總數和目前doc數估算是否BitSet更加劃算)，會采用構造BitSet的方式，非常節約記憶體，而且BitSet可以非常高效的取交/并集。

3. BKD-Tree的結果怎麼跟其他結果合并

通過BKD-Tree查找到的docID是無序的，是以要麼先轉成有序的docID數組，或者構造BitSet，然後再與其他結果合并。

查詢順序優化

如果采用多個條件進行查詢，那麼先查詢代價比較小的，再從小結果集上進行疊代，會更優一些。Lucene中做了很多這方面的優化，在查詢前會先估算每個查詢的代價，再決定查詢順序。

結果排序

預設情況下，Lucene會按照Score排序，即算分後的分數值，如果指定了其他的Sort字段，就會按照指定的字段排序。那麼，排序會非常影響性能嗎？首先，排序并不會對所有命中的doc進行排序，而是構造一個堆，保證前(Offset+Size)個數的doc是有序的，是以排序的性能取決于(Size+Offset)和命中的文檔數，另外就是讀取docValues的開銷。因為(Size+Offset)并不會太大，而且docValues的讀取性能很高，是以排序并不會非常的影響性能。

各場景查詢性能分析

上一節講了一些查詢相關的理論知識，那麼本節就是理論結合實踐，通過具體的一些測試數字來分析一下各個場景的性能。測試采用單機單Shard、64核機器、SSD磁盤，主要分析各個場景的計算開銷，不考慮作業系統Cache的影響，測試結果僅供參考。

單Term查詢

ES中建立一個Index，一個shard，無replica。有1000萬行資料，每行隻有幾個标簽和一個唯一ID，現在将這些資料寫入這個Index中。其中Tag1這個标簽隻有a和b兩個值，現在要從1000萬行中找到一條Tag1=a的資料(約500萬)。給出以下查詢，那麼它耗時如何呢：
請求：
{
  "query": {
    "constant_score": {
      "filter": {
        "term": {
          "Tag1": "a"
        }
      }
    }
  },
  "size": 1
}'
響應：
{"took":233,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":5184867,"max_score":1.0,"hits":...}

這個請求耗費了233ms，并且傳回了符合條件的資料總數：5184867條。

對于Tag1="a"這個查詢條件，我們知道是查詢Tag1="a"的倒排鍊，這個倒排鍊的長度是5184867，是非常長的，主要時間就花在掃描這個倒排鍊上。其實對這個例子來說，掃描倒排鍊帶來的收益就是拿到了符合條件的記錄總數，因為條件中設定了constant_score，是以不需要算分，随便傳回一條符合條件的記錄即可。對于要算分的場景，Lucene會根據詞條在doc中出現的頻率來計算分值，并取分值排序傳回。

目前我們得到一個結論，233ms時間至少可以掃描500萬的倒排鍊，另外考慮到單個請求是單線程執行的，可以粗略估算，一個CPU核在一秒内掃描倒排鍊内doc的速度是千萬級的。

我們再換一個小一點的倒排鍊，長度為1萬，總共耗時3ms。

{"took":3,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":10478,"max_score":1.0,"hits":...}

Term組合查詢

首先考慮兩個Term查詢求交集：

對于一個Term的組合查詢，兩個倒排鍊分别為1萬和500萬，合并後符合條件的資料為5000，查詢性能如何呢？
請求：
{
  "size": 1,
  "query": {
    "constant_score": {
      "filter": {
        "bool": {
          "must": [
            {
              "term": {
                "Tag1": "a"  // 倒排鍊長度500萬
              }
            },
            {
              "term": {
                "Tag2": "0" // 倒排鍊長度1萬
              }
            }
          ]
        }
      }
    }
  }
}
響應：
{"took":21,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":5266,"max_score":2.0,"hits":...}

這個請求耗時21ms，主要是做兩個倒排鍊的求交操作，是以我們主要分析skipList的性能。

這個例子中，倒排鍊長度是1萬、500萬，合并後仍有5000多個doc符合條件。對于1萬的倒排鍊，基本上不進行skip，因為一半的doc都是符合條件的，對于500萬的倒排鍊，平均每次skip1000個doc。因為倒排鍊在存儲時最小的機關是BLOCK，一個BLOCK一般是128個docID，BLOCK内不會進行skip操作。是以即使能夠skip到某個BLOCK，BLOCK内的docID還是要順序掃描的。是以這個例子中，實際掃描的docID數粗略估計也有幾十萬，是以總時間花費了20多ms也符合預期。

對于Term查詢求并集呢，将上面的bool查詢的must改成should，查詢結果為：

{"took":393,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":5190079,"max_score":1.0,"hits":...}

花費時間393ms，是以求并集的時間是多于其中單個條件查詢的時間。

字元串範圍查詢

RecordID是一個UUID，1000萬條資料，每個doc都有一個唯一的uuid，從中查找0～7開頭的uuid，大概結果有500多萬個，性能如何呢？
請求：
{
  "query": {
    "constant_score": {
      "filter": {
        "range": {
          "RecordID": {
            "gte": "0",
            "lte": "8"
          }
        }
      }
    }
  },
  "size": 1
}
響應：
{"took":3001,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":5185663,"max_score":1.0,"hits":...}

查詢a開頭的uuid，結果大概有60多萬，性能如何呢？

請求：
{
  "query": {
    "constant_score": {
      "filter": {
        "range": {
          "RecordID": {
            "gte": "a",
            "lte": "b"
          }
        }
      }
    }
  },
  "size": 1
}
響應：
{"took":379,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":648556,"max_score":1.0,"hits":...}

這個查詢我們主要分析FST的查詢性能，從上面的結果中我們可以看到，FST的查詢性能相比掃描倒排鍊要差許多，同樣掃描500萬的資料，倒排鍊掃描隻需要不到300ms，而FST上的掃描花費了3秒，基本上是慢十倍的。對于UUID長度的字元串來說，FST範圍掃描的性能大概是每秒百萬級。

字元串範圍查詢加Term查詢

字元串範圍查詢(符合條件500萬)，加上兩個Term查詢(符合條件5000)，最終符合條件數目2600，性能如何？
請求：
{
  "query": {
    "constant_score": {
      "filter": {
        "bool": {
          "must": [
            {
              "range": {
                "RecordID": {
                  "gte": "0",
                  "lte": "8"
                }
              }
            },
            {
              "term": {
                "Tag1": "a"
              }
            },
            {
              "term": {
                "Tag2": "0"
              }
            }
          ]
        }
      }
    }
  },
  "size": 1
}
結果：
{"took":2849,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":2638,"max_score":1.0,"hits":...}

這個例子中，查詢消耗時間的大頭還是在掃描FST的部分，通過FST掃描出符合條件的Term，然後讀取每個Term對應的docID清單，構造一個BitSet，再與兩個TermQuery的倒排鍊求交集。

數字Range查詢

對于數字類型，我們同樣從1000萬資料中查找500萬呢？
請求：
{
  "query": {
    "constant_score": {
      "filter": {
        "range": {
          "Number": {
            "gte": 100000000,
            "lte": 150000000
          }
        }
      }
    }
  },
  "size": 1
}
響應：
{"took":567,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":5183183,"max_score":1.0,"hits":...}

這個場景我們主要測試BKD-Tree的性能，可以看到BKD-Tree查詢的性能還是不錯的，查找500萬個doc花費了500多ms，隻比掃描倒排鍊差一倍，相比FST的性能有了很大的提升。地理位置相關的查詢也是通過BKD-Tree實作的，性能很高。

數字Range查詢加Term查詢

這裡我們構造一個複雜的查詢場景，數字Range範圍資料500萬，再加兩個Term條件，最終符合條件資料2600多條，性能如何？
請求：
{
  "query": {
    "constant_score": {
      "filter": {
        "bool": {
          "must": [
            {
              "range": {
                "Number": {
                  "gte": 100000000,
                  "lte": 150000000
                }
              }
            },
            {
              "term": {
                "Tag1": "a"
              }
            },
            {
              "term": {
                "Tag2": "0"
              }
            }
          ]
        }
      }
    }
  },
  "size": 1
}
響應：
{"took":27,"timed_out":false,"_shards":{"total":1,"successful":1,"skipped":0,"failed":0},"hits":{"total":2638,"max_score":1.0,"hits":...}

這個結果出乎我們的意料，竟然隻需要27ms！因為在上一個例子中，數字Range查詢耗時500多ms，而我們增加兩個Term條件後，時間竟然變為27ms，這是為何呢？

實際上，Lucene在這裡做了一個優化，底層有一個查詢叫做IndexOrDocValuesQuery，會自動判斷是查詢Index(BKD-Tree)還是DocValues。在這個例子中，查詢順序是先對兩個TermQuery求交集，得到5000多個docID，然後讀取這個5000多個docID對應的docValues，從中篩選符合數字Range條件的資料。因為隻需要讀5000多個doc的docValues，是以花費時間很少。

簡單結論

總體上講，掃描的doc數量越多，性能肯定越差。
單個倒排鍊掃描的性能在每秒千萬級，這個性能非常高，如果對數字類型要進行Term查詢，也推薦建成字元串類型。
通過skipList進行倒排鍊合并時，性能取決于最短鍊的掃描次數和每次skip的開銷，skip的開銷比如BLOCK内的順序掃描等。
FST相關的字元串查詢要比倒排鍊查詢慢很多(通配符查詢更是性能殺手,本文未做分析)。
基于BKD-Tree的數字範圍查詢性能很好，但是由于BKD-Tree内的docID不是有序的，不能采用類似skipList的向後跳的方式，如果跟其他查詢做交集，必須先構造BitSet，這一步可能非常耗時。Lucene中通過IndexOrDocValuesQuery對一些場景做了優化。

最後結尾再放一個彩蛋，既然掃描資料越多，性能越差，那麼能否擷取到足夠資料就提前終止呢，下一篇文章我會介紹一種這方面的技術，可以極大的提高很多場景下的查詢性能。

基于Lucene查詢原理分析Elasticsearch的性能

前言

Lucene查詢原理

Lucene的資料結構和查詢原理

組合條件的結果合并

查詢順序優化

結果排序

各場景查詢性能分析

單Term查詢

Term組合查詢

字元串範圍查詢

字元串範圍查詢加Term查詢

數字Range查詢

數字Range查詢加Term查詢

簡單結論

繼續閱讀

D5|哈希表，善用資料結構

如何成為一名.net 工程師?

BMP檔案結構及圖像每行位元組計算方法

D. Ehab the Xorcist(構造+思維)

查找算法之二分查找查找算法之二分查找

JAVA高效程式設計指南

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

查找檔案中的字元串

【資料結構】醫院選址

[轉]ISUP信令的IAM消息詳細内容

筆試面試題目：滑動視窗(二)

交通/城市相關的公開的資料集上學時整理的Xie et al., 2020收集的

資料結構與算法（27）——排序（二）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

詳解STM32單片機的堆棧

Linux裝置模型（中）之上層容器