天天看點

《異構資訊網絡挖掘: 原理和方法》—— 1.3 本書的内容組織

本節書摘來自華章出版社《異構資訊網絡挖掘: 原理和方法法》一 書中的第1章,第1.3節,作者( 美)孫藝洲(yizhou sun),(美)韓家炜(jiawei han),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

    第1章介紹了異構資訊網絡挖掘問題。然後,本書分為三個部分,每個部分包含兩章内容,它們講述了異構資訊網絡挖掘的原理和方法,并且按照不同的挖掘任務來組織。最後,第8章概述了這一研究領域的一些開放研究題目。第2~7章的主要内容總結如下。

第一部分:基于排名的聚類和分類。通過差別不同連結類型間的資訊傳播,我們介紹了若幹基本挖掘任務的研究,例如在異構資訊網絡中的聚類與分類。

    第2章:基于排名的聚類。對于異構資訊網絡中基于連結的聚類,我們需要探索異構資料類型間的連結。最近的研究開發的基于排名的聚類方法(如rankclus和netclus)能高效地生成聚類和排名結果。這種方法基于如下觀察:排名和聚類可以互相提高,因為在每個聚類中排名高的對象更有助于明晰化聚類,并且明顯屬于某個聚類的對象更容易在該類中獲得高的排名。

    第3章:異構資訊網絡的分類。分類也可以利用異構資訊網絡中的連結。知識可以在異構網絡中有效傳播,這是因為由相同類型的連結相似連接配接着的相同類型節點很可能是相似的。此外,根據基于排名的聚類的思想,可以探索基于排名的分類,因為在一個類中排名高的對象可能對分類有非常重要的作用。基于這些思想,研究者設計了有效的分類算法,例如gnetmine和rankclass。

    第二部分:基于元路徑的相似性搜尋和挖掘。我們介紹了一個基于元路徑的系統化方法來處理一般性的帶有特定網絡模式的異構資訊網絡。在這個架構下,相似性搜尋和其他挖掘任務(如關系預測)都能通過對網絡的元結構進行系統化探索得到解決。

    第4章:基于元路徑的相似性搜尋。相似性搜尋在網絡分析中有着重要作用。通過考慮網絡中的各種連結路徑(即元路徑),可以獲得異構資訊網絡中關于相似性的各種語義。文獻[65]介紹了一種基于元路徑的相似性評價方法,稱為pathsim,它用于發現網絡中的對等對象。與基于随機遊走的相似性評價方法相比,pathsim已被證明在許多應用場景中更有意義。

    第5章:基于元路徑的關系預測。異構資訊網絡帶來了多種對象類型之間的互動,使得預測異構類型對象間的關系成為可能。通過系統化地設計網絡中基于元路徑的拓撲特征和評價方法,監督模型可以用來在關系預測中學習适當的權重以及相關的各種拓撲特征。

    第三部分:關系強度感覺挖掘,對象類型間關系的異質性往往導緻挖掘結果的不一緻,我們通過使用者選擇來解決該問題。通過使用者引導,每個關系的強度都可以自動地學習,進而實作更好的挖掘。

    第6章:不完全屬性的關系強度感覺聚類。通過指定一組屬性,異構資訊網絡中不同關系的強度可以自動地學習以幫助網絡聚類。

    第7章:通過元路徑選擇的使用者引導聚類。異構資訊網絡中,不同的元路徑代表不同的關系,攜帶不同的語義。使用者引導,比如提供某一對象類型的少量訓練樣例,可以表明使用者對此聚類結果有偏好。這樣,能夠學習到一個有偏好的元路徑或者帶權元路徑的組合,使得挖掘結果與訓練樣例更加一緻。

繼續閱讀