天天看點

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

幾種關鍵詞提取介紹:TextRank、LDA、TPR

- TextRank關鍵詞提取

TextRank是由PageRank延伸而來的,先簡單介紹PageRank

PageRank:

一個簡單的例子,求節點A的PR值是多少

例1:

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

PR(A)=PR(B)+PR(C)

但是節點B不止有一條對外連結,是以應該為:

PR(A)=PR(B)2+PR(C)1

例2:可能會存在沒有對外連結的網頁

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

圖中網頁C沒有對外連結,于是可以假設對所有網頁都有對外連結

PR(A)=PR(B)2+PR(C)4

例3:有些網頁隻有自己到自己的對外連結,或者幾個網頁形成一個循環鍊,這樣就導緻,在不斷的疊代循環中,這些網頁的PR值一直在增加

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

這種情況下,想象成一個人如果到達C網站後發現沒有其他的對外連結,那麼他将以一定的機率從浏覽器中輸入網站跳轉到其他的網站

PR(A)=αPR(B)2+(1−α)4

一般情況下PageRank的更新公式為:

PR(pi)=α∑pj∈MpiPR(Pj)L(pj)+1−αN

L(pj) 是網頁 j 的對外連結數目,Mpi是指對外連結到網頁 i 的數目

TexTRank:

TextRank,是将每一個詞作為一個節點,而節點與節點之間的鍊,是由詞與詞之間的共現決定的,決定詞與詞共現的方法,是由一個固定大小的視窗決定的,如果一個詞與另一個詞在同一個視窗裡,就在這兩個詞之間加一條邊。

例如:

程式員是從事程式開發、維護的專業人員。一般将程式員分為程式設計人員和程式編碼人員,但兩者的界限并不非常清楚,特别是在中國。軟體從業人員分為初級程式員、進階程式員、系統分析員和項目經理四大類。

分詞以後的結果

[程式員/n, 是/v, 從事/v, 程式/n, 開發/v, 、/w, 維護/v, 的/uj, 專業/n, 人員/n, 。/w, 一般/a, 将/d, 程式員/n, 分為/v, 程式/n, 設計/vn, 人員/n, 和/c, 程式/n, 編碼/n, 人員/n, ,/w, 但/c, 兩者/r, 的/uj, 界限/n, 并/c, 不/d, 非常/d, 清楚/a, ,/w, 特别/d, 是/v, 在/p, 中國/ns, 。/w, 軟體/n, 從業/b, 人員/n, 分為/v, 初級/b, 程式員/n, 、/w, 進階/a, 程式員/n, 、/w, 系統/n, 分析員/n, 和/c, 項目/n, 經理/n, 四/m, 大/a, 類/q, 。/w]

選擇視窗大小為5後,去掉一些停用詞後,就可以得到:

開發=[專業, 程式員, 維護, 英文, 程式, 人員],

軟體=[程式員, 分為, 界限, 進階, 中國, 特别, 人員],

程式員=[開發, 軟體, 分析員, 維護, 系統, 項目, 經理, 分為, 英文, 程式, 專業, 設計, 進階, 人員, 中國],

分析員=[程式員, 系統, 項目, 經理, 進階],

維護=[專業, 開發, 程式員, 分為, 英文, 程式, 人員],

系統=[程式員, 分析員, 項目, 經理, 分為, 進階],

項目=[程式員, 分析員, 系統, 經理, 進階],

經理=[程式員, 分析員, 系統, 項目],

分為=[專業, 軟體, 設計, 程式員, 維護, 系統, 進階, 程式, 中國, 特别, 人員],

英文=[專業, 開發, 程式員, 維護, 程式],

程式=[專業, 開發, 設計, 程式員, 編碼, 維護, 界限, 分為, 英文, 特别, 人員],

特别=[軟體, 編碼, 分為, 界限, 程式, 中國, 人員],

專業=[開發, 程式員, 維護, 分為, 英文, 程式, 人員],

設計=[程式員, 編碼, 分為, 程式, 人員],

編碼=[設計, 界限, 程式, 中國, 特别, 人員],

界限=[軟體, 編碼, 程式, 中國, 特别, 人員],

進階=[程式員, 軟體, 分析員, 系統, 項目, 分為, 人員],

中國=[程式員, 軟體, 編碼, 分為, 界限, 特别, 人員],

人員=[開發, 程式員, 軟體, 維護, 分為, 程式, 特别, 專業, 設計, 編碼, 界限, 進階, 中國]

來看看”程式員”這個詞:

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

textRank的更新公式為:

WS(Vi)=1−dN+d∗∑Vj∈In(Vi)wji∑Vk∈Out(Vj)WS(Vj)

根據上面的公式不斷疊代,最後每一個詞的Weights值會收斂,再根據每個詞的Weights大小排序,取前面的權重大的詞作為關鍵詞。

- LDA關鍵詞提取

lda是含有隐變量生成模型,也是一種隐語義算法模形,下面介紹LDA的生成模型,如下的圖都是從《LDA的數學八卦》中摘取:

我們将文檔詞的生成比作上帝老頭抛色子

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

來看下簡單的一進制模性:

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

也就是這樣

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

而貝葉斯學派的了解是引入了完全貝葉斯公式,引入了先驗。

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取
幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

PLSA

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

LDA

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

LDA生成模型的公式

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取
幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取
幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

上面的公式的分母中存在求和符号,是以不容易得到解析解,是以使用了Gibbs采樣,來對指定詞的主題進行采樣,經過采樣後就可以得到

基于主題的詞分布:

p(w|z)

和基于文章的主題分布 p(z|d)

基于LDA的關鍵詞提取

根據上面的LDA的訓練,可以的得到一篇文章的主題分布 p(z|di) ,和文章中詞的主題分布 p(z|wi) ,可以通過餘弦相似度或者KL散度來計算這兩個分布的相似性。如果文章的某一主題 z 的機率很大,而該文章中某個詞對于該主題z也擁有更大的機率,那麼該詞就會有非常大的機率成為關鍵詞

p(z|w)=Cwk+β∑k=1∈KCwk+kβ

p(z|d)=Cwj+α∑Kk=1Cwk+kβ

TPR = LDA + TextRank

回歸PageRank時的圖

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

這種情況下,想象成一個人如果到達C網站後發現沒有其他的對外連結,那麼他将以一定的機率從浏覽器中輸入網站跳轉到其他的網站

PR(A)=αPR(B)2+(1−α)4

重新回歸PageRank公式:

PR(pi)=α∑pj∈MpiPR(Pj)L(pj)+1−αN

1−αN 表示網頁有 1−α 的機率轉移到其他節點,以 α 的機率轉移到自己的鄰居節點,在pageRank中這部分通常擁有相同的值,表示每個節點等機率的跳轉到其他節點,沒有任何偏好。

TPR的思想是每個主題單獨運作各自的帶偏好的TextRank,每個主題的TextRank都會偏好與主題有較大相關度的詞,這個偏好就是設定随機跳轉的機率來得到的。

textrank公式:

WS(wi)=1−dN+d∗∑wj∈In(wi)wji∑wk∈Out(wj)WS(wj)

對于每個主題 z ,根據LDA的訓練都可以得到每個主題下的詞的分布p(w|z),可以把每個詞的機率值單做該主題下Textrank的跳轉機率來計算,重新修改為:

WSz(wi)=(1−d)P(wi|z)+d∗∑wj∈In(wi)wji∑wk∈Out(wj)WSz(wj)

而每個詞最後的得分為:

WS(wi)=∑z=1KWSz(wi)∗P(z|d)

使用下圖了解:

幾種關鍵詞算法幾種關鍵詞提取介紹:TextRank、LDA、TPR- TextRank關鍵詞提取- LDA關鍵詞提取

簡單結果對比

TPR、TextRank、LDA對比

http://mini.eastday.com/mobile/171130071903959.html

TPR:[經濟, 美國, 美聯儲, 消息, 市場, 國會, 聯邦, 耶倫, 股市, 報告, 經濟委員會, 英國, 主席, 央行, 匯率, 提振, 稅改, 油價, 股指, 分析師]

TextRank:[經濟, 市場, 報告, 美國, 消息, 央行, 匯率, 油價, 股市, 股指, 分析師, 盈利, 加拿大, 數字, 銀行, 金融, 指數, 英國, 原油, 美聯儲]

LDA:[國會, 聯邦, 政策師, 經濟委員會, 加拿大皇家銀行, 美聯儲, 主席, 特币, 華爾街, 耶倫, 前景, 經濟師, 推高, 參議院, 美國, 貨币, 匯率, 提振, 行長, 北韓]

http://mini.eastday.com/mobile/171130092449084.html

TPR:[美國, 黃金, 美聯儲, 加息, 金價, 價格, 北韓, 耶倫, 市場, 關口, 主席, 經濟, 新高, 指數, 證詞, 稅改, 投資者, 跌幅, 高位, 國會]

TextRank:[美國, 黃金, 價格, 金價, 關口, 美聯儲, 北韓, 市場, 新高, 加息, 耶倫, 經濟, 指數, 跌幅, 稅改, 投資者, 阻力, 技術, 高位, 主席]

LDA:[國會, 美市, 美聯儲, 彈道飛彈, 加息, 初值, 縮表, 通脹, 杜德利, 火星, 但耶倫, 耶倫, 主席, 梅斯特, 洲際飛彈, 那契, 驚現, 紐約聯儲, 達拉斯聯儲, 季調]

http://mini.eastday.com/mobile/171130073529414.html

TPR:[美聯儲, 加息, 聽證會, 人選, 美國, 主席, 條件, 例會, 通脹, 事務委員會, 美國聯邦儲備委員會, 時說, 鮑威爾, 貨币, 負債表, 政策, 參議院, 特朗普, 總統, 狀況]

TextRank:[美聯儲, 加息, 聽證會, 美國, 人選, 主席, 條件, 通脹, 水準, 住房, 城市, 事務委員會, 規模, 銀行, 負債表, 時說, 參議院, 資産, 貨币, 特朗普]

LDA:[例會, 事務委員會, 美國聯邦儲備委員會, 聽證會, 鮑威爾, 美聯儲, 加息, 負債表, 人選, 主席, 時說, 通脹, 貨币, 參議院, 政策, 美國, 水準, 狀況, 條件, 總統]

http://mini.eastday.com/mobile/171130154152011.html

TPR:[文化, 中國, 玉雕, 藝術, 甯海, 大師, 玉石, 曆史, 藝術品, 品格, 專家, 中華, 市民, 傳統, 民族, 博覽會, 城市, 中心, 底蘊, 源遠流長]

TextRank:[中國, 文化, 玉雕, 大師, 藝術, 專家, 甯海, 曆史, 市民, 上海, 古玩, 傳統, 藝術品, 上海禦客會文化傳播有限公司, 董事長, 中華, 玉石, 主任, 中心, 内容]

LDA:[玉石, 品格, 甯海, 玉雕, 藝術品, 藝術, 文化, 大師, 民族, 中華, 博覽會, 底蘊, 内涵, 氣息, 源遠流長, 文化協會, 董事長, 秘書長, 曆史, 載體]

繼續閱讀