ES中相關性簡介及相關行評分标準

每個文檔都有相關性評分，用一個相對的浮點數字段

_score

來表示 –

_score

的評分越高，相關性越高。

查詢語句會為每個文檔添加一個

_score

字段。評分的計算方式取決于不同的查詢類型 – 不同的查詢語句用于不同的目的：fuzzy 查詢會計算與關鍵詞的拼寫相似程度，terms查詢會計算找到的内容與關鍵詞組成部分比對的百分比，但是一般意義上我們說的全文本搜尋是指計算内容與關鍵詞的類似程度。

ElasticSearch的相似度算法被定義為 TF/IDF，即檢索詞頻率/反向文檔頻率，包括一下内容：

檢索詞頻率:

檢索詞在該字段出現的頻率？出現頻率越高，相關性也越高。

字段中出現過5次要比隻出現過1次的相關性高。
反向文檔頻率:

每個檢索詞在索引中出現的頻率？頻率越高，相關性越低。

檢索詞出現在多數文檔中會比出現在少數文檔中的權重更低，即檢驗一個檢索詞在文檔中的普遍重要性。

(檢索詞字段在目前文檔出現次數與索引中其他文檔的出現總數的比率)
字段長度準則:

字段的長度是多少？長度越長，相關性越低。檢索詞出現在一個短的
title 要比同樣的詞出現在一個長的 content 字段。

了解評分标準

當調試一條複雜的查詢語句時，想要了解相關性評分

_score

是比較困難的。ElasticSearch 在每個查詢語句中都有一個

explain

參數，将

explain

設為

true

就可以得到更詳細的資訊。

GET /_search?explain <1>
{
   "query"   : { "match" : { "tweet" : "honeymoon" }}
}

explain

參數可以讓傳回結果添加一個

_score

評分的得來依據。

增加一個

explain

參數會為每個比對到的文檔産生一大堆額外内容，但是花時間去了解它是很有意義的。如果現在看不明白也沒關系 – 等你需要的時候再來回顧這一節就行。下面我們來一點點的了解這塊知識點。

首先，我們看一下普通查詢傳回的中繼資料：

{ "_index" : "us", "_type" : "tweet", "_id" : "12", "_score" : 0.076713204, "_source" : { ... trimmed ... }, }

這裡加入了該文檔來自于哪個節點哪個分片上的資訊，這對我們是比較有幫助的，因為詞頻率和文檔頻率是在每個分片中計算出來的，而不是每個索引中：

"_shard" : 1, "_node" : "mzIVYCsqSWCG_M_ZffSs9Q",

然後傳回值中的

_explanation

會包含在每一個入口，告訴你采用了哪種計算方式，并讓你知道計算的結果以及其他詳情：

"_explanation": { "description": "weight(tweet:honeymoon in 0) [PerFieldSimilarity], result of:", "value": 0.076713204, "details": [ { "description": "fieldWeight in 0, product of:", "value": 0.076713204, "details": [ { "description": "tf(freq=1.0), with freq of:", "value": 1, "details": [ { "description": "termFreq=1.0", "value": 1 } ] }, { "description": "idf(docFreq=1, maxDocs=1)", "value": 0.30685282 }, { "description": "fieldNorm(doc=0)", "value": 0.25, } ] } ] }

honeymoon

相關性評分計算的總結檢索詞頻率反向文檔頻率字段長度準則

重要：

輸出
explain 結果代價是十分昂貴的，它隻能用作調試工具

千萬不要用于生産環境。第一部分是關于計算的總結。告訴了我們 "honeymoon" 在 tweet 字段中的檢索詞頻率/反向文檔頻率或 TF/IDF，（這裡的文檔 0 是一個内部的ID，跟我們沒有關系，可以忽略。）然後解釋了計算的權重是如何計算出來的：檢索詞頻率: 檢索詞 honeymoon 在 tweet 字段中的出現次數。反向文檔頻率: 檢索詞 honeymoon 在 tweet 字段在目前文檔出現次數與索引中其他文檔的出現總數的比率。字段長度準則: 文檔中 tweet 字段内容的長度 – 内容越長，值越小。複雜的查詢語句解釋也非常複雜，但是包含的内容與上面例子大緻相同。通過這段描述我們可以了解搜尋結果是如何産生的。

提示：

JSON形式的explain描述是難以閱讀的

但是轉成 YAML 會好很多，隻需要在參數中加上
format=yaml

Explain Api

文檔是如何被比對到的當

explain

選項加到某一文檔上時，它會告訴你為何這個文檔會被比對，以及一個文檔為何沒有被比對。請求路徑為

/index/type/id/_explain

如下所示：

GET /us/tweet/12/_explain { "query" : { "filtered" : { "filter" : { "term" : { "user_id" : 2 }}, "query" : { "match" : { "tweet" : "honeymoon" }} } } }

"failure to match filter: cache(user_id:[2 TO 2])"

ES中相關性簡介及相關行評分标準

了解評分标準

Explain Api

繼續閱讀

大資料時代的技術hive：hive的資料類型和資料模型

ElasticSearch:Rest API操作

一張圖看懂OSPF鄰接關系建立及封包類型

電子工程師名片——USB裝置枚舉過程

SQL資料庫優化--基礎

MyBatis-Plus allEq()的用法

UDP 協定解析

資料中台選型必讀（二）：資料中台如何搭建中繼資料管理中心

ES優化實戰-通過開啟copy_to提升一倍的檢索性能

Laravel資料庫擷取整合資料方法技巧合集（總）

圖解elasticsearch的_source、_all、store和index

自學Linux Shell12.4-for指令

中文排序規則

Mysql 8 - 檢查限制

網絡層 ICMP與ping：投石問路的偵察兵

mysql5.7的sql優化