在python中關鍵字如何提取

2023-05-04 06:07:43

導入庫

import jieba.analyse  # 導入關鍵字提取庫
import pandas as pd  # 導入pandas

讀取文本資料

with open('article1.txt') as fn:
    string_data = fn.read()  # 使用read方法讀取整段文本

關鍵字提取

# 關鍵字提取
tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True, 
           allowPOS=['ns', 'n', 'vn', 'v', 'nr'], withFlag=True)  # 提取關鍵字标簽

# topK 留下幾個詞
# withWeight 是否顯示權重
# allowPOS允許出現分詞結果當中的詞性
# withFlag  是否把詞性顯示出來

tags_pairs

#顯示結果
[(pair('資料', 'n'), 0.31339518831674595),
 (pair('報表', 'n'), 0.16336725871191995),
 (pair('功能', 'n'), 0.15026293886335268),
 (pair('分析', 'vn'), 0.13485675219675175),
 (pair('使用者', 'n'), 0.12663268811916473)]

列印資料框

tags_list = [(i[0].word, i[0].flag, i[1]) for i in tags_pairs]
tags_pd = pd.DataFrame(tags_list, columns=['word', 'flag', 'weight']) #建立資料框
print(tags_pd)  # 列印資料框
  word flag    weight
0   資料    n  0.313395
1   報表    n  0.163367
2   功能    n  0.150263
3   分析   vn  0.134857
4   使用者    n  0.126633

在python中關鍵字如何提取

繼續閱讀

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入