餘弦相似度公式及推導案例
文章目錄
- 餘弦相似度公式及推導案例
-
- 定義
- 公式推導
- 案例
定義
餘弦相似度通過測量兩個向量的夾角的餘弦值來度量它們之間的相似性。0度角的餘弦值是1,而其他任何角度的餘弦值都不大于1;并且其最小值是-1。進而兩個向量之間的角度的餘弦值确定兩個向量是否大緻指向相同的方向。兩個向量有相同的指向時,餘弦相似度的值為1;兩個向量夾角為90°時,餘弦相似度的值為0;兩個向量指向完全相反的方向時,餘弦相似度的值為-1。這結果是與向量的長度無關的,僅僅與向量的指向方向相關。餘弦相似度通常用于正空間,是以給出的值為0到1之間。
注意這上下界對任何次元的向量空間中都适用,而且餘弦相似性最常用于高維正空間。例如在資訊檢索中,每個詞項被賦予不同的次元,而一個次元由一個向量表示,其各個次元上的值對應于該詞項在文檔中出現的頻率。餘弦相似度是以可以給出兩篇文檔在其主題方面的相似度。
另外,它通常用于文本挖掘中的檔案比較。此外,在資料挖掘領域中,會用到它來度量叢集内部的凝聚力。
兩個向量間的餘弦值可以通過使用歐幾裡得點積公式求出:
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnL5EjNxATO1QTM1IDNwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
給定兩個屬性向量,A和B,其餘弦相似性θ由點積和向量長度給出,如下所示:
這裡的Ai、Bi分别代表向量A和B的各分量。
公式推導
如果對于上述的公式不是很了解,那就請看這裡的公式推導:
(由于不會鍵盤敲數軸和公式,就直接上筆了)
案例
看一個案例來加深了解:
某購物網站有如下資料:小明購買了T恤a、T恤b、T恤e,小紅購買了T恤b、T恤c、小強購買了T恤a、T恤e。
把以上資訊轉為向量圖,代入上述的公式來計算得出相似度,過程如下:
由上述的結果便可得到如下結論:小明和小紅這兩個使用者有一定的相似度,但是不大,因為他們隻有一個共同商品;小明和小強這兩個使用者相似度最大,因為他們有兩個共同商品;而小紅和小強的相似度為0,因為小紅買的T恤小強都沒有買。
轉自:https://blog.csdn.net/smile_shujie/article/details/89516305