文本相似度-bm25算法原理及实现

文章目录

文本相似度-bm25算法原理及实现
原理

原理

BM25算法：

用途：搜索相关性分数的计算；

算法描述：

对Query进行语素解析，生成语素 q i q_i qi；
然后，对于每个搜索结果D，计算每个语素 q i q_i qi与D的相关性得分，
最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。

BM25算法的一般性公式如下：

S c o r e ( Q , d ) = ∑ 1 n W i R ( q i , d ) Score(Q, d) = \sum_{1}^{n}W_iR(q_i, d) Score(Q,d)=1∑nWiR(qi,d)

名词解释：

Q表示Query；
q i q_i qi表示Q解析之后的一个语素（对中文而言，我们可以把对Query的分词作为语素分析，每个词看成语素 q i q_i qi）；
d表示一个搜索结果文档；
W i W_i Wi表示语素 q i q_i qi的权重； R ( q i ， d ) R(q_i，d) R(qi，d)表示语素 q i q_i qi与文档d的相关性得分；

下面我们来看如何定义Wi。

判断一个词与一个文档的相关性的权重，方法有多种，较常用的是IDF。

我们再来看语素qi与文档d的相关性得分R（qi，d）。

首先来看BM25中相关性得分的一般形式：

文本相似度-bm25算法原理及实现文本相似度-bm25算法原理及实现原理

k1，k2，b为调节因子，通常根据经验设置，一般k1=2，b=0.75；
fi为qi在d中的出现频率
qfi为qi在Query中的出现频率。
dl为文档d的长度
avgdl为所有文档的平均长度。由于绝大部分情况下，qi在Query中只会出现一次，即qfi=1，因此公式可以简化为：

文本相似度-bm25算法原理及实现文本相似度-bm25算法原理及实现原理

从K的定义中可以看到，参数b的作用是调整文档长度对相关性影响的大小。b越大，文档长度的对相关性得分的影响越大，反之越小。而文档的相对长度越长，K值将越大，则相关性得分会越小。这可以理解为，当文档较长时，包含qi的机会越大，因此，同等fi的情况下，长文档与qi的相关性应该比短文档与qi的相关性弱。

综上，BM25算法的相关性得分公式可总结为：

文本相似度-bm25算法原理及实现文本相似度-bm25算法原理及实现原理

从BM25的公式可以看到，通过使用不同的语素分析方法、语素权重判定方法，以及语素与文档的相关性判定方法，我们可以衍生出不同的搜索相关性得分计算方法，这就为我们设计算法提供了较大的灵活性。

文本相似度-bm25算法原理及实现文本相似度-bm25算法原理及实现原理

文本相似度-bm25算法原理及实现

文章目录

原理

继续阅读

国之重器，人工智能，带你认识国内高校AI科研真实水平统计数据范围是csranking列出的ai三大领域(机器学习，计算机

GPT-3.5作为目前最先进的自然语言处理模型之一，具备强大的语言理解和生成能力，被广泛应用于各个领域。然而，受限于技术

ChatGPT是一个由OpenAI开发的人工智能系统。近日,ChatGPT正式登陆谷歌商店,允许任何人通过安装该应用程序

Meta-Transformer，一个多模态模型，其具有一个模态共享编码器，无需配对数据，可以在12个不同模态上完成16

Al+医疗=金矿？亚马逊展示新成果、马展成果。今年在亚马逊云服务AmazonWebServices峰会上亚马逊展示了其A

【NLP】华为发布「国产Copilot内核」PanGu-Coder，而且真的能用中文哦！

Transformer模型最开始是使用在NLP自然语言处理的模型，但是注意力机制越来越火🔥，且注意力机制跟人进行学习的方

基于短文本内容的推荐对于最近做的相关工作，做一个总结分词方法，调用结巴接口去除干扰词

人工智能继续深入人类社会，推动着创新和进步的步伐。人工智能的飞速发展鼓舞了勇于探索的企业和个人，不断开拓着未知的领域。最

超越想象！「小艺+大模型」发布，华为智慧助手体验升级！在科技飞速发展的今天，AI技术已经成为推动行业创新的关键驱动力。华

今年是大模型爆发元年，微软创始人比尔盖茨直言不讳地说“大模型是40余年来最革命性的技术”，可以说它有望成为数字时代的新生

初探微软TypeChat：给你的应用增加自然语言交互界面的实验框架

你写代码的方式即将改变，你需要来了解一下

自然语言理解（NLU）相关微信小程序大全

奋战聊天机器人（四）自然语言处理中的文本分类nltk中的贝叶斯分类器

GlobalMapper20如何导入文本类（txt，csv，excel）的坐标数据序：一、如何导入离散的坐标点二、离散的坐标点如何生产相互连接的线三、离散的坐标点如何生成范围面