天天看點

R語言資料挖掘1.4 社交網絡挖掘

<b>1.4 社交網絡挖掘</b>

正如我們前面提到的,資料挖掘是從資料中發現一個模型,社交網絡挖掘就是從表示社交網絡的圖形資料中發現模型。

社交網絡挖掘是網絡資料挖掘的一個應用,比較流行的應用有社會科學和文獻計量學、pagerank和hits算法、粗粒度圖模型的不足、增強模型和技術、主題提取的評估以及網絡的評估與模組化。

社交網絡

當涉及社交網絡的讨論時,你會想到facebook、google+和linkedin等。社交網絡的基本特征如下:

存在一個參與網絡的實體集合。通常情況下,這些實體是人,但它們也完全可能是其他實體。

網絡的實體之間至少存在一種關系。在facebook上,這種關系被稱為朋友,有時,這種關系要麼存在要麼不存在,兩個人要麼是朋友要麼不是朋友。然而,在社交網絡的其他例子中,關系有一個度。這個度可以是離散的,比如在google+上,朋友、家人、相識或者不相識;這個度也可能是一個實際的數字,比如平均一天内兩個人互相交談所花費的時間。

社交網絡有一個非随機性或者忠誠性的假設。這個條件最難形式化,但直覺解釋是關系趨于集中;也就是說,如果實體a與b和c都相關,那麼b與c相關的機率就高于平均水準。

下面是社交網絡的一些種類:

電話網絡(telephone network):該網絡的節點是電話号碼,代表個體。

電子郵件網絡(e-mail network):該網絡的節點是電子郵件位址,也代表個體。

合作網絡(collaboration network):該網絡的節點代表發表了研究論文的個體,連接配接兩個節點的邊表示聯合發表一篇或者多篇論文的兩個個體。

社交網絡以無向圖模組化。實體是節點,如果兩個節點根據刻畫網絡的關系互相關聯,那麼就有一條邊連接配接兩個節點。如果相關聯的關系有一個度,那麼這個度就通過标記邊來表示。

下載下傳代碼示例

你可以從http://www.packtpub.com的賬戶中下載下傳所有你購買的packt出版社出版的書籍的示例代碼檔案。如果你在其他地方購買了這本書,你可以通路http://www.packtpub.com/support網站并注冊,我們将通過電子郵件直接給你發送檔案。

這裡有一個例子,它是用r語言的sna程式包中的科爾曼高中朋友資料(coleman’s high school friendship data)進行分析。資料來源于對某個學年同一高中的73個男孩之間的友好關系的研究,所有被調查對象提供了兩個時間點(春季和秋季)來報告其關系。資料集的名稱是coleman,它是r語言中的數組類型。節點代表一個具體的學生,線代表兩個學生之間的關系。

繼續閱讀