【本文核心来源于:http://www.cnblogs.com/eastmount/p/5055913.html】
计算相似度的基本思想:
1、分别统计两个文档的关键词;
2、两篇文章的关键词合并成一个集合,相同的合并,不同的添加
3、计算每篇文章对这个集合的词的词频,TF-IDF计算其权重
4、生成两篇文章各自的词频向量
5、计算两个向量的余弦相似度,值越小越相似
详细代码见上述链接
【本文核心来源于:http://www.cnblogs.com/eastmount/p/5055913.html】
计算相似度的基本思想:
1、分别统计两个文档的关键词;
2、两篇文章的关键词合并成一个集合,相同的合并,不同的添加
3、计算每篇文章对这个集合的词的词频,TF-IDF计算其权重
4、生成两篇文章各自的词频向量
5、计算两个向量的余弦相似度,值越小越相似
详细代码见上述链接