天天看點

皮爾遜相關系數 餘弦相似度

皮爾遜相關系數 餘弦相似度

兩個向量

皮爾遜相關系數 餘弦相似度

相似度計算 高中知識計算cos。

皮爾遜相關系數 餘弦相似度

n維同理 。

越接近1 越相似。

推薦系統中協同過濾 user-item矩陣中某個使用者的向量評分假設

A(1,1,2,1,1,1,0,0,0)

B(1,1,1,0,1,1,1,1,1)

皮爾遜相關系數 餘弦相似度

相似度為0.81接近1. 挺高。

皮爾遜相關系數:

餘弦相似度的問題是: 其計算嚴格要求"兩個向量必須所有次元上都有數值,不可以空。實際中很容易空 使用者不評價。這就可以用皮爾遜相關系數,先将null變成0,再将兩個向量都先進行中心化。(有人這麼說) 。還有說是中心化可以去除量綱影響。

中心化的意思是說, 對每個向量, 我先計算所有元素的平均值avg, 然後向量中每個次元的值都減去這個avg, 得到的這個向量叫做被中心化的向量. 中心化之後所有次元的平均值就是0了,然後再進行我們的餘弦計算得到結果。下圖的rx即為平均值。

皮爾遜相關系數 餘弦相似度

公式如上 

pearson是一個介于-1和1之間的值,當兩個變量的線性關系增強時,相關系數趨于1或-1;當一個變量增大,另一個變量也增大時,表明它們之間是正相關的,相關系數大于0;如果一個變量增大,另一個變量卻減小,表明它們之間是負相關的,相關系數小于0;如果相關系數等于0,表明它們之間不存線上性相關關系。

繼續閱讀