導入庫
import jieba.analyse # 導入關鍵字提取庫
import pandas as pd # 導入pandas
讀取文本資料
with open('article1.txt') as fn:
string_data = fn.read() # 使用read方法讀取整段文本
關鍵字提取
# 關鍵字提取
tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True,
allowPOS=['ns', 'n', 'vn', 'v', 'nr'], withFlag=True) # 提取關鍵字标簽
# topK 留下幾個詞
# withWeight 是否顯示權重
# allowPOS允許出現分詞結果當中的詞性
# withFlag 是否把詞性顯示出來
tags_pairs
#顯示結果
[(pair('資料', 'n'), 0.31339518831674595),
(pair('報表', 'n'), 0.16336725871191995),
(pair('功能', 'n'), 0.15026293886335268),
(pair('分析', 'vn'), 0.13485675219675175),
(pair('使用者', 'n'), 0.12663268811916473)]
列印資料框
tags_list = [(i[0].word, i[0].flag, i[1]) for i in tags_pairs]
tags_pd = pd.DataFrame(tags_list, columns=['word', 'flag', 'weight']) #建立資料框
print(tags_pd) # 列印資料框
word flag weight
0 資料 n 0.313395
1 報表 n 0.163367
2 功能 n 0.150263
3 分析 vn 0.134857
4 使用者 n 0.126633