天天看點

在python中關鍵字如何提取

導入庫 

import jieba.analyse  # 導入關鍵字提取庫
import pandas as pd  # 導入pandas
           

 讀取文本資料

with open('article1.txt') as fn:
    string_data = fn.read()  # 使用read方法讀取整段文本
           

關鍵字提取 

# 關鍵字提取
tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True, 
           allowPOS=['ns', 'n', 'vn', 'v', 'nr'], withFlag=True)  # 提取關鍵字标簽

# topK 留下幾個詞
# withWeight 是否顯示權重
# allowPOS允許出現分詞結果當中的詞性
# withFlag  是否把詞性顯示出來

tags_pairs

#顯示結果
[(pair('資料', 'n'), 0.31339518831674595),
 (pair('報表', 'n'), 0.16336725871191995),
 (pair('功能', 'n'), 0.15026293886335268),
 (pair('分析', 'vn'), 0.13485675219675175),
 (pair('使用者', 'n'), 0.12663268811916473)]
           

列印資料框 

tags_list = [(i[0].word, i[0].flag, i[1]) for i in tags_pairs]
tags_pd = pd.DataFrame(tags_list, columns=['word', 'flag', 'weight']) #建立資料框
print(tags_pd)  # 列印資料框
  word flag    weight
0   資料    n  0.313395
1   報表    n  0.163367
2   功能    n  0.150263
3   分析   vn  0.134857
4   使用者    n  0.126633