天天看點

結合網頁排名來做社會網絡分析,挖掘核心人物

基于中心論的社會網絡分析法

基于中心論的分析主要有三個點:

1.點度中心度(考慮點的出入度,可直接找出網絡中的中心點)

2.中介中心度(考慮路徑的中介點,可發現網絡中的中介者,或者叫橋梁)

3.接近中心度(考慮點與點的最短路徑,可找出點的對網控制力量)

4.特征中心度(綜合三個中心度考慮一個行動者中心性名額)

然而,這三種方法都忽略了點與點之間的互相作用, 隻孤立地考慮點在網絡中的地位,無法分析出”近朱者赤,近墨者黑”的現象.是以,我們引入了結合pagerank和HIT算法,進而更好地挖掘出網絡中的權威人物.

Pagerank算法:

網頁PageRank的計算基于兩個假設:

數量假設: 在web圖模型中,如果一個網頁節點接收到的其他網頁指向的傳入連結數量越多, 那麼這個頁面越重要.

品質假設:指向頁面A的傳入連結品質不同, 品質高的頁面會通過連結向其他頁面傳遞更多的權重.是以越是品質高的頁面指向頁面A,則頁面A越為重要.

—–在初始階段, 每個頁面設定相同的PageRank值,通過若幹輪的計算, 會得到每個頁面所獲得的最終PageRank值.随着每一輪的計算進行,網頁目前的PageRank值會不斷得到更新,直至數值基本穩定,進而結束算法.

HIT算法:

Hub頁面和Authority頁面是HITS算法最基本的兩個定義.

Authority頁面: 與某個領域或者某個話題相關的高品質網頁

Hub頁面: 包含了很多指向高品質Authority頁面連結的網頁

類似于PageRank, HIT算法也包含兩個假設:

基本假設1:一個好的Authority頁面會被很多好的Hub頁面指向.

基本假設2:一個好的Hub頁面會指向很多好的Authority頁面

HIT與PageRank的差異:

——HIT算法與主題密切相關,而PageRank算法是與查詢無關的全局算法,根據這個差異, 我們可以以特征中心度來作為主題密切相關度的名額, 利用HIT算法, 計算點的authority_score,進而挖掘出網絡中的核心人物.

實驗分析:

實驗使用的資料集: D. E. Knuth根據Victor Hugo(維克多.雨果)的小說Les Misèrables,《悲慘世界》,整理了其中的人物關系網絡。網絡中的節點表示小說中的角色,邊表示兩個角色同時出現在一幕或多幕中。規模:網絡共有77個節點,508條邊.出處:Knuth D E, The Stanford Graph Base: A Platform for Combinatorial Computing. Addison-Wesley, Reading, MA,1993

我們利用igraph工具, 對實驗的資料進行處理, 分别對計算出來的degree(點度中心度), evcent(特征中心度), pagerank, authority_score進行排序,并選出前3個作為對比, 實驗結果如下:

結合網頁排名來做社會網絡分析,挖掘核心人物

degree排名前三的是: 男主人公Valjean, 情報打聽者Gavorche, 男二号Marius

evcent排名前三的是:情報打聽者Gavorche, 男主人公Valjean, 革命領袖Enjolras

pagerank排名前三的是:男主人公Valjean, 男二号Marius, 主教Myriel

authority_score排名前三的是:男主人公Valjean, 男兒号Marius, 女主人公Cosette

從實驗中分析, 可以看出效果:authority_score > pagerank > degree > evcent

網絡拓撲圖:

結合網頁排名來做社會網絡分析,挖掘核心人物

具體的實驗代碼可以在我的github上檢視:

https://github.com/Quincy1994/NewworkAnalysis

繼續閱讀