天天看点

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

之前《皮尔逊相关系数(Pearson Correlation Coefficient, Pearson's r)》一文介绍了皮尔逊相关系数。那么,皮尔逊相关系数(Pearson Correlation Coefficient)和余弦相似度(Cosine Similarity)之间有什么关联呢?

首先,我们来看一下什么是余弦相似度。说到余弦相似度,就要用到余弦定理(Law of Cosine)。

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

假设两个向量

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

之间的夹角为

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

向量的长度分别是

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

对应的边长为向量

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

减去向量

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

的长度,也就是

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

根据余弦定理:

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

对上式进行推导:

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

这样最终可以得到:

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

就是余弦相似度,取值在-1和1之间。如果两个向量方向相反,那么

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

等于-1;如果两个向量方向相同,那么

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

等于1。可以看出,两个向量之间的夹角越小,其夹角余弦越大(越相似)。因此余弦相似度可以用来度量两个变量之间的相似程度。

上面针对的是二维空间,

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

(x1,y1),

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

(x2,y2)两个向量之间的夹角余弦为:

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

扩展到n维空间,

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

(x1,x2,...,xn),

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

(y1,y2,...,yn)两个向量之间的夹角余弦就是:

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

如果对上式数据做标准化处理:

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

夹角余弦公式就会变为:

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

对比皮尔逊相关系数的公式:

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

这两者不是完全一样吗?

因此,我们得到结论:皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦。

继续阅读