BM25算法 [轉]

2023-08-03 14:46:12

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a document (e.g., their relative proximity). It is not a single function, but actually a whole family of scoring functions, with slightly different components and parameters. One of the most prominent instantiations of the function is as follows.

BM25算法，通常用來作搜尋相關性平分。一句話概況其主要思想：對Query進行語素解析，生成語素qi；然後，對于每個搜尋結果D，計算每個語素qi與D的相關性得分，最後，将qi相對于D的相關性得分進行權重求和，進而得到Query與D的相關性得分。

BM25算法的一般性公式如下：

BM25算法 [轉]

其中，Q表示Query，qi表示Q解析之後的一個語素（對中文而言，我們可以把對Query的分詞作為語素分析，每個詞看成語素qi。）；d表示一個搜尋結果文檔；Wi表示語素qi的權重；R(qi，d)表示語素qi與文檔d的相關性得分。

下面我們來看如何定義Wi。判斷一個詞與一個文檔的相關性的權重，方法有多種，較常用的是IDF。這裡以IDF為例，公式如下：

BM25算法 [轉]

其中，N為索引中的全部文檔數，n(qi)為包含了qi的文檔數。

根據IDF的定義可以看出，對于給定的文檔集合，包含了qi的文檔數越多，qi的權重則越低。也就是說，當很多文檔都包含了qi時，qi的區分度就不高，是以使用qi來判斷相關性時的重要度就較低。

我們再來看語素qi與文檔d的相關性得分R（qi，d）。首先來看BM25中相關性得分的一般形式：

BM25算法 [轉]

其中，k1，k2，b為調節因子，通常根據經驗設定，一般k1=2，b=0.75；fi為qi在d中的出現頻率，qfi為qi在Query中的出現頻率。dl為文檔d的長度，avgdl為所有文檔的平均長度。由于絕大部分情況下，qi在Query中隻會出現一次，即qfi=1，是以公式可以簡化為：

BM25算法 [轉]

從K的定義中可以看到，參數b的作用是調整文檔長度對相關性影響的大小。b越大，文檔長度的對相關性得分的影響越大，反之越小。而文檔的相對長度越長，K值将越大，則相關性得分會越小。這可以了解為，當文檔較長時，包含qi的機會越大，是以，同等fi的情況下，長文檔與qi的相關性應該比短文檔與qi的相關性弱。

綜上，BM25算法的相關性得分公式可總結為：

BM25算法 [轉]

從BM25的公式可以看到，通過使用不同的語素分析方法、語素權重判定方法，以及語素與文檔的相關性判定方法，我們可以衍生出不同的搜尋相關性得分計算方法，這就為我們設計算法提供了較大的靈活性。

http://blog.163.com/[email protected]/blog/static/140808374201271424536967/

BM25算法 [轉]

繼續閱讀

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希