Python程式設計：通過交集并集計算文檔相似度

2021-11-22 23:50:00

分詞函數

def split_word(document):
    """
    分詞，去除停用詞
    """
    stop_words = {":", "的", "，", "”"}

    text = []
    for word in jieba.cut(document):
        if word not in stop_words:
            text.append(word)
    return text

通過交集并集計算文檔相似度

from itertools import combinations
    
documents = [
    "窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境",
    "IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元",
    "窩趣較高價的電梯大廈完成近2億元B輪融資"
]

# 計算兩兩組合的相似度
for doc1, doc2 in combinations(documents, 2):
    words1 = split_word(doc1)
    words2 = split_word(doc2)

    words1_set = set(words1)
    words2_set = set(words2)

    similar12 = len(words1_set & words2_set) / len(words1_set | words2_set)
    print("{:.2f}".format(similar12), doc1, doc2)

計算結果

0.00 窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境 IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元
0.53 窩趣較高價的電梯大廈完成近2億元B輪融資主打品質和輕松社交的居住環境 窩趣較高價的電梯大廈完成近2億元B輪融資
0.00 IBM的區塊鍊副總裁JesseLund:比特币将達到100萬美元 窩趣較高價的電梯大廈完成近2億元B輪融資

Python程式設計：通過交集并集計算文檔相似度

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入