之前《皮爾遜相關系數(Pearson Correlation Coefficient, Pearson's r)》一文介紹了皮爾遜相關系數。那麼,皮爾遜相關系數(Pearson Correlation Coefficient)和餘弦相似度(Cosine Similarity)之間有什麼關聯呢?
首先,我們來看一下什麼是餘弦相似度。說到餘弦相似度,就要用到餘弦定理(Law of Cosine)。
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 假設兩個向量
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 和
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 之間的夾角為
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 。
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) ,
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 向量的長度分别是
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 對應的邊長為向量
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 減去向量
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 的長度,也就是
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 根據餘弦定理:
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 對上式進行推導:
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 這樣最終可以得到:
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 就是餘弦相似度,取值在-1和1之間。如果兩個向量方向相反,那麼
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 等于-1;如果兩個向量方向相同,那麼
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 等于1。可以看出,兩個向量之間的夾角越小,其夾角餘弦越大(越相似)。是以餘弦相似度可以用來度量兩個變量之間的相似程度。
上面針對的是二維空間,
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) (x1,y1),
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) (x2,y2)兩個向量之間的夾角餘弦為:
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 擴充到n維空間,
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) (x1,x2,...,xn),
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) (y1,y2,...,yn)兩個向量之間的夾角餘弦就是:
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 如果對上式資料做标準化處理:
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 夾角餘弦公式就會變為:
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 對比皮爾遜相關系數的公式:
皮爾遜相關系數與餘弦相似度(Pearson Correlation Coefficient & Cosine Similarity) 這兩者不是完全一樣嗎?
是以,我們得到結論:皮爾遜相關系數就是把兩組資料标準化處理之後的向量夾角的餘弦。