python關鍵詞提取_python實作關鍵詞提取的示例講解

新人小菜鳥又來寫部落格啦！！！沒人表示不開心~~(>_<)~~

今天我來弄一個簡單的關鍵詞提取的代碼

文章内容關鍵詞的提取分為三大步：

（1）分詞

（2）去停用詞

（3）關鍵詞提取

分詞方法有很多，我這裡就選擇常用的結巴jieba分詞；去停用詞，我用了一個停用詞表。

具體代碼如下：

import jieba

import jieba.analyse

#第一步：分詞，這裡使用結巴分詞全模式

text = '''新聞，也叫消息，是指報紙、電台、電視台、網際網路經常使用的記錄社會、傳播資訊、反映時代的一種文體，具有真實性、時效性、簡潔性、可讀性、準确性的特點。新聞概念有廣義與狹義之分。就其廣義而言，除了發表于報刊、廣播、電視上的評論與專文外的常用文本都屬于新聞之列，包括消息、通訊、特寫、速寫（有的将速寫納入特寫之列）等等。狹義的新聞則專指消息，消息是用概括的叙述方式，比較簡明扼要的文字，迅速及時地報道國内外新近發生的、有價值的的事實。新聞也分公衆新聞和小道新聞等。每則新聞在結構上，一般包括标題、導語、主體、背景和結語五部分。前三者是主要部分，後二者是輔助部分。寫法上主要是叙述，有時兼有議論、描寫、評論等。

'''

fenci_text = jieba.cut(text)

#print("/ ".join(fenci_text))

#第二步：去停用詞

#這裡是有一個檔案存放要改的文章，一個檔案存放停用表，然後和停用表裡的詞比較，一樣的就删掉，最後把結果存放在一個檔案中

stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])

final = ""

for word in fenci_text:

if word not in stopwords:

if (word != "。" and word != "，") :

final = final + " " + word

print(final)

#第三步：提取關鍵詞

a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())

print(a)

#text 為待提取的文本

# topK:傳回幾個 TF/IDF 權重最大的關鍵詞，預設值為20。

# withWeight:是否一并傳回關鍵詞權重值，預設值為False。

# allowPOS:僅包括指定詞性的詞，預設值為空，即不進行篩選。

運作結果：

runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘')

新聞消息指報紙、電台、電視台、網際網路記錄社會、傳播資訊、時代一種文體真實性、時效性、簡潔性、可讀性、準确性新聞概念廣義狹義之分廣義發表報刊、廣播、電視評論專文外常用文本新聞列包括消息、通訊、特寫、速寫（速寫納入特寫列）狹義新聞專指消息消息概括叙述方式簡明扼要文字報道國内外新近發生、價值事實新聞分公衆新聞小道新聞每則新聞在結構上包括标題、導語、主體、背景結語五前三者二者輔助寫法叙述兼有議論、描寫、評論

[('新聞', 0.4804811569680808), ('速寫', 0.2121107125313131), ('消息', 0.20363211136040404), ('特寫', 0.20023623445272729), ('狹義', 0.16168734917858588)]

好啦，是不是很簡單？

以上這篇python實作關鍵詞提取的示例講解就是小編分享給大家的全部内容了，希望能給大家一個參考，也希望大家多多支援腳本之家。

python關鍵詞提取_python實作關鍵詞提取的示例講解

繼續閱讀

python關鍵詞提取_python 關鍵詞提取 (jieba+sklearn)

python關鍵詞提取_TextRank:基于Tr算法提取新聞關鍵詞的Python爬蟲

python關鍵詞提取_如何從Python格式字元串中提取關鍵字？ - python