幾種關鍵詞提取介紹：TextRank、LDA、TPR

- TextRank關鍵詞提取

TextRank是由PageRank延伸而來的，先簡單介紹PageRank

PageRank：

一個簡單的例子，求節點A的PR值是多少

例1：

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

PR(A)=PR(B)+PR(C)

但是節點B不止有一條對外連結，是以應該為：

PR(A)=PR(B)2+PR(C)1

例2：可能會存在沒有對外連結的網頁

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

圖中網頁C沒有對外連結，于是可以假設對所有網頁都有對外連結

PR(A)=PR(B)2+PR(C)4

例3：有些網頁隻有自己到自己的對外連結，或者幾個網頁形成一個循環鍊，這樣就導緻，在不斷的疊代循環中，這些網頁的PR值一直在增加

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

這種情況下，想象成一個人如果到達C網站後發現沒有其他的對外連結，那麼他将以一定的機率從浏覽器中輸入網站跳轉到其他的網站

PR(A)=αPR(B)2+(1−α)4

一般情況下PageRank的更新公式為：

PR(pi)=α∑pj∈MpiPR(Pj)L(pj)+1−αN

L(pj) 是網頁 j 的對外連結數目，Mpi是指對外連結到網頁 i 的數目

TexTRank：

TextRank，是将每一個詞作為一個節點，而節點與節點之間的鍊，是由詞與詞之間的共現決定的，決定詞與詞共現的方法，是由一個固定大小的視窗決定的，如果一個詞與另一個詞在同一個視窗裡，就在這兩個詞之間加一條邊。

例如：

程式員是從事程式開發、維護的專業人員。一般将程式員分為程式設計人員和程式編碼人員，但兩者的界限并不非常清楚，特别是在中國。軟體從業人員分為初級程式員、進階程式員、系統分析員和項目經理四大類。

分詞以後的結果

[程式員/n, 是/v, 從事/v, 程式/n, 開發/v, 、/w, 維護/v, 的/uj, 專業/n, 人員/n, 。/w, 一般/a, 将/d, 程式員/n, 分為/v, 程式/n, 設計/vn, 人員/n, 和/c, 程式/n, 編碼/n, 人員/n, ，/w, 但/c, 兩者/r, 的/uj, 界限/n, 并/c, 不/d, 非常/d, 清楚/a, ，/w, 特别/d, 是/v, 在/p, 中國/ns, 。/w, 軟體/n, 從業/b, 人員/n, 分為/v, 初級/b, 程式員/n, 、/w, 進階/a, 程式員/n, 、/w, 系統/n, 分析員/n, 和/c, 項目/n, 經理/n, 四/m, 大/a, 類/q, 。/w]

選擇視窗大小為5後，去掉一些停用詞後，就可以得到:

開發=[專業, 程式員, 維護, 英文, 程式, 人員],

軟體=[程式員, 分為, 界限, 進階, 中國, 特别, 人員],

程式員=[開發, 軟體, 分析員, 維護, 系統, 項目, 經理, 分為, 英文, 程式, 專業, 設計, 進階, 人員, 中國],

分析員=[程式員, 系統, 項目, 經理, 進階],

維護=[專業, 開發, 程式員, 分為, 英文, 程式, 人員],

系統=[程式員, 分析員, 項目, 經理, 分為, 進階],

項目=[程式員, 分析員, 系統, 經理, 進階],

經理=[程式員, 分析員, 系統, 項目],

分為=[專業, 軟體, 設計, 程式員, 維護, 系統, 進階, 程式, 中國, 特别, 人員],

英文=[專業, 開發, 程式員, 維護, 程式],

程式=[專業, 開發, 設計, 程式員, 編碼, 維護, 界限, 分為, 英文, 特别, 人員],

特别=[軟體, 編碼, 分為, 界限, 程式, 中國, 人員],

專業=[開發, 程式員, 維護, 分為, 英文, 程式, 人員],

設計=[程式員, 編碼, 分為, 程式, 人員],

編碼=[設計, 界限, 程式, 中國, 特别, 人員],

界限=[軟體, 編碼, 程式, 中國, 特别, 人員],

進階=[程式員, 軟體, 分析員, 系統, 項目, 分為, 人員],

中國=[程式員, 軟體, 編碼, 分為, 界限, 特别, 人員],

人員=[開發, 程式員, 軟體, 維護, 分為, 程式, 特别, 專業, 設計, 編碼, 界限, 進階, 中國]

來看看”程式員”這個詞：

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

textRank的更新公式為：

WS(Vi)=1−dN+d∗∑Vj∈In(Vi)wji∑Vk∈Out(Vj)WS(Vj)

根據上面的公式不斷疊代，最後每一個詞的Weights值會收斂，再根據每個詞的Weights大小排序，取前面的權重大的詞作為關鍵詞。

- LDA關鍵詞提取

lda是含有隐變量生成模型，也是一種隐語義算法模形，下面介紹LDA的生成模型，如下的圖都是從《LDA的數學八卦》中摘取：

我們将文檔詞的生成比作上帝老頭抛色子

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

來看下簡單的一進制模性：

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

也就是這樣

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

而貝葉斯學派的了解是引入了完全貝葉斯公式，引入了先驗。

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

PLSA

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

LDA

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

LDA生成模型的公式

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

上面的公式的分母中存在求和符号，是以不容易得到解析解，是以使用了Gibbs采樣，來對指定詞的主題進行采樣，經過采樣後就可以得到

基于主題的詞分布:

p(w|z)

和基于文章的主題分布 p(z|d)

基于LDA的關鍵詞提取

根據上面的LDA的訓練，可以的得到一篇文章的主題分布 p(z|di) ，和文章中詞的主題分布 p(z|wi) ，可以通過餘弦相似度或者KL散度來計算這兩個分布的相似性。如果文章的某一主題 z 的機率很大，而該文章中某個詞對于該主題z也擁有更大的機率，那麼該詞就會有非常大的機率成為關鍵詞

p(z|w)=Cwk+β∑k=1∈KCwk+kβ

p(z|d)=Cwj+α∑Kk=1Cwk+kβ

TPR = LDA + TextRank

回歸PageRank時的圖

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

這種情況下，想象成一個人如果到達C網站後發現沒有其他的對外連結，那麼他将以一定的機率從浏覽器中輸入網站跳轉到其他的網站

PR(A)=αPR(B)2+(1−α)4

重新回歸PageRank公式：

PR(pi)=α∑pj∈MpiPR(Pj)L(pj)+1−αN

1−αN 表示網頁有 1−α 的機率轉移到其他節點，以 α 的機率轉移到自己的鄰居節點，在pageRank中這部分通常擁有相同的值，表示每個節點等機率的跳轉到其他節點，沒有任何偏好。

TPR的思想是每個主題單獨運作各自的帶偏好的TextRank，每個主題的TextRank都會偏好與主題有較大相關度的詞，這個偏好就是設定随機跳轉的機率來得到的。

textrank公式：

WS(wi)=1−dN+d∗∑wj∈In(wi)wji∑wk∈Out(wj)WS(wj)

對于每個主題 z ，根據LDA的訓練都可以得到每個主題下的詞的分布p(w|z),可以把每個詞的機率值單做該主題下Textrank的跳轉機率來計算，重新修改為：

WSz(wi)=(1−d)P(wi|z)+d∗∑wj∈In(wi)wji∑wk∈Out(wj)WSz(wj)

而每個詞最後的得分為：

WS(wi)=∑z=1KWSz(wi)∗P(z|d)

使用下圖了解：

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

簡單結果對比

TPR、TextRank、LDA對比

http://mini.eastday.com/mobile/171130071903959.html

TPR：[經濟, 美國, 美聯儲, 消息, 市場, 國會, 聯邦, 耶倫, 股市, 報告, 經濟委員會, 英國, 主席, 央行, 匯率, 提振, 稅改, 油價, 股指, 分析師]

TextRank：[經濟, 市場, 報告, 美國, 消息, 央行, 匯率, 油價, 股市, 股指, 分析師, 盈利, 加拿大, 數字, 銀行, 金融, 指數, 英國, 原油, 美聯儲]

LDA：[國會, 聯邦, 政策師, 經濟委員會, 加拿大皇家銀行, 美聯儲, 主席, 特币, 華爾街, 耶倫, 前景, 經濟師, 推高, 參議院, 美國, 貨币, 匯率, 提振, 行長, 北韓]

http://mini.eastday.com/mobile/171130092449084.html

TPR：[美國, 黃金, 美聯儲, 加息, 金價, 價格, 北韓, 耶倫, 市場, 關口, 主席, 經濟, 新高, 指數, 證詞, 稅改, 投資者, 跌幅, 高位, 國會]

TextRank：[美國, 黃金, 價格, 金價, 關口, 美聯儲, 北韓, 市場, 新高, 加息, 耶倫, 經濟, 指數, 跌幅, 稅改, 投資者, 阻力, 技術, 高位, 主席]

LDA：[國會, 美市, 美聯儲, 彈道飛彈, 加息, 初值, 縮表, 通脹, 杜德利, 火星, 但耶倫, 耶倫, 主席, 梅斯特, 洲際飛彈, 那契, 驚現, 紐約聯儲, 達拉斯聯儲, 季調]

http://mini.eastday.com/mobile/171130073529414.html

TPR：[美聯儲, 加息, 聽證會, 人選, 美國, 主席, 條件, 例會, 通脹, 事務委員會, 美國聯邦儲備委員會, 時說, 鮑威爾, 貨币, 負債表, 政策, 參議院, 特朗普, 總統, 狀況]

TextRank：[美聯儲, 加息, 聽證會, 美國, 人選, 主席, 條件, 通脹, 水準, 住房, 城市, 事務委員會, 規模, 銀行, 負債表, 時說, 參議院, 資産, 貨币, 特朗普]

LDA：[例會, 事務委員會, 美國聯邦儲備委員會, 聽證會, 鮑威爾, 美聯儲, 加息, 負債表, 人選, 主席, 時說, 通脹, 貨币, 參議院, 政策, 美國, 水準, 狀況, 條件, 總統]

http://mini.eastday.com/mobile/171130154152011.html

TPR：[文化, 中國, 玉雕, 藝術, 甯海, 大師, 玉石, 曆史, 藝術品, 品格, 專家, 中華, 市民, 傳統, 民族, 博覽會, 城市, 中心, 底蘊, 源遠流長]

TextRank：[中國, 文化, 玉雕, 大師, 藝術, 專家, 甯海, 曆史, 市民, 上海, 古玩, 傳統, 藝術品, 上海禦客會文化傳播有限公司, 董事長, 中華, 玉石, 主任, 中心, 内容]

LDA：[玉石, 品格, 甯海, 玉雕, 藝術品, 藝術, 文化, 大師, 民族, 中華, 博覽會, 底蘊, 内涵, 氣息, 源遠流長, 文化協會, 董事長, 秘書長, 曆史, 載體]

幾種關鍵詞算法幾種關鍵詞提取介紹：TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

幾種關鍵詞提取介紹：TextRank、LDA、TPR

- TextRank關鍵詞提取

PageRank：

TexTRank：

- LDA關鍵詞提取

基于LDA的關鍵詞提取

TPR = LDA + TextRank

繼續閱讀

LDA: 從頭到尾徹底了解LDA (Latent Dirichlet Allocation) 1. MCMC and Gibbs Sampling 2. Markov Chain 3. 繼續MCMC and Gibbs Sampling 4. Gamma函數 5. Beta Distribution & Dirichlet Distribution 6. 文本模組化 Unigram Model 7. PLSA 8. LDA詳解

Topic Model

貝葉斯規則和LDA主題模型

文本摘要綜述-bertsum、BottleSum、TextRANk

Latent Dirichlet Allocation及Hierarchical LDA模型的必讀文章和相關代碼

幾種機率語言模型和參數學習方法

主題模型TopicModel：LDA程式設計實作LDA的python實作LDA的c/c++實作LDA的java實作LDA的R實作

主題模型TopicModel：通過gensim實作LDA使用gensim快速實作lda

LDA的Gibbs 采樣1 馬爾可夫鍊參考

基于 LDA SS-NMF 的文本主題分析可視化分析系統畢業設計附完整代碼一、緒論二、核心算法三、系統設計與實作四、算法定量分析及比較五、使用案例六、總結及展望

Gibbs sampling -- batch LDA

了解機器學習中如何降維處理

LDA 主題模型

LDA與PCA資料降維算法理論與實作（基于python）資料降維

【降維方法】- 線性判别分析（LDA）

降維方法1. PCA (主成分分析)2. LDA(線性判别分析)