天天看點

Python程式設計:通過交集并集計算文檔相似度

分詞函數

def split_word(document):
    """
    分詞,去除停用詞
    """
    stop_words = {":", "的", ",", "”"}

    text = []
    for word in jieba.cut(document):
        if word not in stop_words:
            text.append(word)
    return text      

通過交集并集計算文檔相似度

from itertools import combinations
    
documents = [
    "窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境",
    "IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元",
    "窩趣較高價的電梯大廈完成近2億元B輪融資"
]

# 計算兩兩組合的相似度
for doc1, doc2 in combinations(documents, 2):
    words1 = split_word(doc1)
    words2 = split_word(doc2)

    words1_set = set(words1)
    words2_set = set(words2)

    similar12 = len(words1_set & words2_set) / len(words1_set | words2_set)
    print("{:.2f}".format(similar12), doc1, doc2)      

計算結果

0.00 窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境 IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元
0.53 窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境 窩趣較高價的電梯大廈完成近2億元B輪融資
0.00 IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元 窩趣較高價的電梯大廈完成近2億元B輪融資