天天看點

數學與算法《文檔相似性 - 餘弦定理》

TF-IDF

零:寒暄寒暄

昨天看了一天的CNN,結果被深度學習的深度給深深地深刻地深埋了(是歎服了),今天想換換腦子,去綜結一下之前學習的《數學之美》裡面介紹的算法和數學,下一篇再搞幾篇深度學習的學習筆記。

手裡沒機器,慢慢先學習,等我回國了再搞機器。

一:深入淺出

現在,我有兩篇文檔,如何計算兩篇文檔的相似程度的呢?

數學與算法《文檔相似性 - 餘弦定理》

是以,這兩句話變成了兩個向量,每個元素是詞語出現的個數,現在問題就變成了兩個向量之間的相似性對比,那麼就可以用到餘弦定理了。

數學與算法《文檔相似性 - 餘弦定理》

兩個向量之間的夾角越小,那麼兩個向量之間的方向越相近,也相似。計算式如下:

數學與算法《文檔相似性 - 餘弦定理》

餘弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"餘弦相似性"。

二:拓展

上面是講了兩句話的相似性,我們隻能計算詞頻,但是對于文章我們還可以計算出,IDF值的話,我們就會用TF-IDF值找出兩篇文章的相似性。截取每篇文章前N個關鍵詞詞語,組成一個集合(TF運算去除了文章的長短差異),根據這個集合,生成兩個文章的代表向量,每個元素是TF-IDF值,最後就用餘弦相似性進行運算。

繼續閱讀