幾種關鍵詞提取介紹:TextRank、LDA、TPR
- TextRank關鍵詞提取
TextRank是由PageRank延伸而來的,先簡單介紹PageRank
PageRank:
一個簡單的例子,求節點A的PR值是多少
例1:

PR(A)=PR(B)+PR(C)
但是節點B不止有一條對外連結,是以應該為:
PR(A)=PR(B)2+PR(C)1
例2:可能會存在沒有對外連結的網頁
圖中網頁C沒有對外連結,于是可以假設對所有網頁都有對外連結
PR(A)=PR(B)2+PR(C)4
例3:有些網頁隻有自己到自己的對外連結,或者幾個網頁形成一個循環鍊,這樣就導緻,在不斷的疊代循環中,這些網頁的PR值一直在增加
這種情況下,想象成一個人如果到達C網站後發現沒有其他的對外連結,那麼他将以一定的機率從浏覽器中輸入網站跳轉到其他的網站
PR(A)=αPR(B)2+(1−α)4
一般情況下PageRank的更新公式為:
PR(pi)=α∑pj∈MpiPR(Pj)L(pj)+1−αN
L(pj) 是網頁 j 的對外連結數目,Mpi是指對外連結到網頁 i 的數目
TexTRank:
TextRank,是将每一個詞作為一個節點,而節點與節點之間的鍊,是由詞與詞之間的共現決定的,決定詞與詞共現的方法,是由一個固定大小的視窗決定的,如果一個詞與另一個詞在同一個視窗裡,就在這兩個詞之間加一條邊。
例如:
程式員是從事程式開發、維護的專業人員。一般将程式員分為程式設計人員和程式編碼人員,但兩者的界限并不非常清楚,特别是在中國。軟體從業人員分為初級程式員、進階程式員、系統分析員和項目經理四大類。
分詞以後的結果
[程式員/n, 是/v, 從事/v, 程式/n, 開發/v, 、/w, 維護/v, 的/uj, 專業/n, 人員/n, 。/w, 一般/a, 将/d, 程式員/n, 分為/v, 程式/n, 設計/vn, 人員/n, 和/c, 程式/n, 編碼/n, 人員/n, ,/w, 但/c, 兩者/r, 的/uj, 界限/n, 并/c, 不/d, 非常/d, 清楚/a, ,/w, 特别/d, 是/v, 在/p, 中國/ns, 。/w, 軟體/n, 從業/b, 人員/n, 分為/v, 初級/b, 程式員/n, 、/w, 進階/a, 程式員/n, 、/w, 系統/n, 分析員/n, 和/c, 項目/n, 經理/n, 四/m, 大/a, 類/q, 。/w]
選擇視窗大小為5後,去掉一些停用詞後,就可以得到:
開發=[專業, 程式員, 維護, 英文, 程式, 人員],
軟體=[程式員, 分為, 界限, 進階, 中國, 特别, 人員],
程式員=[開發, 軟體, 分析員, 維護, 系統, 項目, 經理, 分為, 英文, 程式, 專業, 設計, 進階, 人員, 中國],
分析員=[程式員, 系統, 項目, 經理, 進階],
維護=[專業, 開發, 程式員, 分為, 英文, 程式, 人員],
系統=[程式員, 分析員, 項目, 經理, 分為, 進階],
項目=[程式員, 分析員, 系統, 經理, 進階],
經理=[程式員, 分析員, 系統, 項目],
分為=[專業, 軟體, 設計, 程式員, 維護, 系統, 進階, 程式, 中國, 特别, 人員],
英文=[專業, 開發, 程式員, 維護, 程式],
程式=[專業, 開發, 設計, 程式員, 編碼, 維護, 界限, 分為, 英文, 特别, 人員],
特别=[軟體, 編碼, 分為, 界限, 程式, 中國, 人員],
專業=[開發, 程式員, 維護, 分為, 英文, 程式, 人員],
設計=[程式員, 編碼, 分為, 程式, 人員],
編碼=[設計, 界限, 程式, 中國, 特别, 人員],
界限=[軟體, 編碼, 程式, 中國, 特别, 人員],
進階=[程式員, 軟體, 分析員, 系統, 項目, 分為, 人員],
中國=[程式員, 軟體, 編碼, 分為, 界限, 特别, 人員],
人員=[開發, 程式員, 軟體, 維護, 分為, 程式, 特别, 專業, 設計, 編碼, 界限, 進階, 中國]
來看看”程式員”這個詞:
textRank的更新公式為:
WS(Vi)=1−dN+d∗∑Vj∈In(Vi)wji∑Vk∈Out(Vj)WS(Vj)
根據上面的公式不斷疊代,最後每一個詞的Weights值會收斂,再根據每個詞的Weights大小排序,取前面的權重大的詞作為關鍵詞。
- LDA關鍵詞提取
lda是含有隐變量生成模型,也是一種隐語義算法模形,下面介紹LDA的生成模型,如下的圖都是從《LDA的數學八卦》中摘取:
我們将文檔詞的生成比作上帝老頭抛色子
來看下簡單的一進制模性:
也就是這樣
而貝葉斯學派的了解是引入了完全貝葉斯公式,引入了先驗。
PLSA
LDA
LDA生成模型的公式
上面的公式的分母中存在求和符号,是以不容易得到解析解,是以使用了Gibbs采樣,來對指定詞的主題進行采樣,經過采樣後就可以得到
基于主題的詞分布:
p(w|z)
和基于文章的主題分布 p(z|d)
基于LDA的關鍵詞提取
根據上面的LDA的訓練,可以的得到一篇文章的主題分布 p(z|di) ,和文章中詞的主題分布 p(z|wi) ,可以通過餘弦相似度或者KL散度來計算這兩個分布的相似性。如果文章的某一主題 z 的機率很大,而該文章中某個詞對于該主題z也擁有更大的機率,那麼該詞就會有非常大的機率成為關鍵詞
p(z|w)=Cwk+β∑k=1∈KCwk+kβ
p(z|d)=Cwj+α∑Kk=1Cwk+kβ
TPR = LDA + TextRank
回歸PageRank時的圖
這種情況下,想象成一個人如果到達C網站後發現沒有其他的對外連結,那麼他将以一定的機率從浏覽器中輸入網站跳轉到其他的網站
PR(A)=αPR(B)2+(1−α)4
重新回歸PageRank公式:
PR(pi)=α∑pj∈MpiPR(Pj)L(pj)+1−αN
1−αN 表示網頁有 1−α 的機率轉移到其他節點,以 α 的機率轉移到自己的鄰居節點,在pageRank中這部分通常擁有相同的值,表示每個節點等機率的跳轉到其他節點,沒有任何偏好。
TPR的思想是每個主題單獨運作各自的帶偏好的TextRank,每個主題的TextRank都會偏好與主題有較大相關度的詞,這個偏好就是設定随機跳轉的機率來得到的。
textrank公式:
WS(wi)=1−dN+d∗∑wj∈In(wi)wji∑wk∈Out(wj)WS(wj)
對于每個主題 z ,根據LDA的訓練都可以得到每個主題下的詞的分布p(w|z),可以把每個詞的機率值單做該主題下Textrank的跳轉機率來計算,重新修改為:
WSz(wi)=(1−d)P(wi|z)+d∗∑wj∈In(wi)wji∑wk∈Out(wj)WSz(wj)
而每個詞最後的得分為:
WS(wi)=∑z=1KWSz(wi)∗P(z|d)
使用下圖了解:
簡單結果對比
TPR、TextRank、LDA對比
http://mini.eastday.com/mobile/171130071903959.html
TPR:[經濟, 美國, 美聯儲, 消息, 市場, 國會, 聯邦, 耶倫, 股市, 報告, 經濟委員會, 英國, 主席, 央行, 匯率, 提振, 稅改, 油價, 股指, 分析師]
TextRank:[經濟, 市場, 報告, 美國, 消息, 央行, 匯率, 油價, 股市, 股指, 分析師, 盈利, 加拿大, 數字, 銀行, 金融, 指數, 英國, 原油, 美聯儲]
LDA:[國會, 聯邦, 政策師, 經濟委員會, 加拿大皇家銀行, 美聯儲, 主席, 特币, 華爾街, 耶倫, 前景, 經濟師, 推高, 參議院, 美國, 貨币, 匯率, 提振, 行長, 北韓]
http://mini.eastday.com/mobile/171130092449084.html
TPR:[美國, 黃金, 美聯儲, 加息, 金價, 價格, 北韓, 耶倫, 市場, 關口, 主席, 經濟, 新高, 指數, 證詞, 稅改, 投資者, 跌幅, 高位, 國會]
TextRank:[美國, 黃金, 價格, 金價, 關口, 美聯儲, 北韓, 市場, 新高, 加息, 耶倫, 經濟, 指數, 跌幅, 稅改, 投資者, 阻力, 技術, 高位, 主席]
LDA:[國會, 美市, 美聯儲, 彈道飛彈, 加息, 初值, 縮表, 通脹, 杜德利, 火星, 但耶倫, 耶倫, 主席, 梅斯特, 洲際飛彈, 那契, 驚現, 紐約聯儲, 達拉斯聯儲, 季調]
http://mini.eastday.com/mobile/171130073529414.html
TPR:[美聯儲, 加息, 聽證會, 人選, 美國, 主席, 條件, 例會, 通脹, 事務委員會, 美國聯邦儲備委員會, 時說, 鮑威爾, 貨币, 負債表, 政策, 參議院, 特朗普, 總統, 狀況]
TextRank:[美聯儲, 加息, 聽證會, 美國, 人選, 主席, 條件, 通脹, 水準, 住房, 城市, 事務委員會, 規模, 銀行, 負債表, 時說, 參議院, 資産, 貨币, 特朗普]
LDA:[例會, 事務委員會, 美國聯邦儲備委員會, 聽證會, 鮑威爾, 美聯儲, 加息, 負債表, 人選, 主席, 時說, 通脹, 貨币, 參議院, 政策, 美國, 水準, 狀況, 條件, 總統]
http://mini.eastday.com/mobile/171130154152011.html
TPR:[文化, 中國, 玉雕, 藝術, 甯海, 大師, 玉石, 曆史, 藝術品, 品格, 專家, 中華, 市民, 傳統, 民族, 博覽會, 城市, 中心, 底蘊, 源遠流長]
TextRank:[中國, 文化, 玉雕, 大師, 藝術, 專家, 甯海, 曆史, 市民, 上海, 古玩, 傳統, 藝術品, 上海禦客會文化傳播有限公司, 董事長, 中華, 玉石, 主任, 中心, 内容]
LDA:[玉石, 品格, 甯海, 玉雕, 藝術品, 藝術, 文化, 大師, 民族, 中華, 博覽會, 底蘊, 内涵, 氣息, 源遠流長, 文化協會, 董事長, 秘書長, 曆史, 載體]