分詞函數
def split_word(document):
"""
分詞,去除停用詞
"""
stop_words = {":", "的", ",", "”"}
text = []
for word in jieba.cut(document):
if word not in stop_words:
text.append(word)
return text
通過交集并集計算文檔相似度
from itertools import combinations
documents = [
"窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境",
"IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元",
"窩趣較高價的電梯大廈完成近2億元B輪融資"
]
# 計算兩兩組合的相似度
for doc1, doc2 in combinations(documents, 2):
words1 = split_word(doc1)
words2 = split_word(doc2)
words1_set = set(words1)
words2_set = set(words2)
similar12 = len(words1_set & words2_set) / len(words1_set | words2_set)
print("{:.2f}".format(similar12), doc1, doc2)
計算結果
0.00 窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境 IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元
0.53 窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境 窩趣較高價的電梯大廈完成近2億元B輪融資
0.00 IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元 窩趣較高價的電梯大廈完成近2億元B輪融資