天天看點

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

之前《皮爾遜相關系數(Pearson Correlation Coefficient, Pearson's r)》一文介紹了皮爾遜相關系數。那麼,皮爾遜相關系數(Pearson Correlation Coefficient)和餘弦相似度(Cosine Similarity)之間有什麼關聯呢?

首先,我們來看一下什麼是餘弦相似度。說到餘弦相似度,就要用到餘弦定理(Law of Cosine)。

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

假設兩個向量

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

之間的夾角為

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

向量的長度分别是

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

對應的邊長為向量

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

減去向量

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

的長度,也就是

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

根據餘弦定理:

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

對上式進行推導:

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

這樣最終可以得到:

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

就是餘弦相似度,取值在-1和1之間。如果兩個向量方向相反,那麼

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

等于-1;如果兩個向量方向相同,那麼

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

等于1。可以看出,兩個向量之間的夾角越小,其夾角餘弦越大(越相似)。是以餘弦相似度可以用來度量兩個變量之間的相似程度。

上面針對的是二維空間,

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

(x1,y1),

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

(x2,y2)兩個向量之間的夾角餘弦為:

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

擴充到n維空間,

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

(x1,x2,...,xn),

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

(y1,y2,...,yn)兩個向量之間的夾角餘弦就是:

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

如果對上式資料做标準化處理:

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

夾角餘弦公式就會變為:

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

對比皮爾遜相關系數的公式:

皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

這兩者不是完全一樣嗎?

是以,我們得到結論:皮爾遜相關系數就是把兩組資料标準化處理之後的向量夾角的餘弦。

繼續閱讀