本節書摘來自華章出版社《異構資訊網絡挖掘: 原理和方法法》一 書中的第2章,第2.1節,作者( 美)孫藝洲(yizhou sun),(美)韓家炜(jiawei han),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
對于基于連結的異構資訊網絡聚類,我們需要探索涉及異構資料類型的連結。在這章中,我們學習如何使用不同類型的連結來計算不同類型對象的排名,展示排名和聚類如何互相提高,并最終獲得合理的排名和聚類結果。我們将學習異構資訊網絡的兩個特例:二進制類型網絡和星型網絡。
為了更好地了解資訊網絡,許多分析技術被設計出來,不過它們大多是基于同構資訊網絡的,其中兩個方法值得關注:排名和聚類。一方面,根據數學化展示對象特征的排名函數,排名評價資訊網絡中的對象。通過這類函數,兩個定性或定量的對象可以按一種偏序進行比較。其中pagerank[10]和hits[34]或許是資訊網絡中最著名的排名算法。另一方面,聚類按照特定的相似性評價将對象進行分組,是以相似的對象在同一聚類中,反之不相似的對象則在不同的聚類中。總之,作為兩個基礎性的分析工具,排名和聚類可以用來總覽資訊網絡,是以被廣泛地應用于各種應用。
聚類和排名通常被視為不相幹的技術,它們獨立地應用于資訊網絡分析。然而,若隻使用它們中的一個來分析資訊網絡常常會導緻不完整,甚至有時帶有偏見的分析結果。例如,在不考慮資訊網絡中各個對象所屬聚類的前提下對它們進行排名,容易導緻得到無用的結果。例如,将資料庫和計算機體系的刊物或作者混在一起排名,沒有什麼意義;另外,無差别地将大量對象(如數千作者)聚集到一個類中也是沒有意義的。然而,将兩個功能(聚類和排名)內建在一起,則能得到更易于了解的結果,如例21所示。

繼續考慮同一資料集。如果我們聚集在db/dm領域的刊物,并且對該聚類中的刊物和作者進行排名,可以得到表23所示的結果。
例2.1表明,好的聚類确實提升了排名結果的品質。而且,考慮對象的排名通常能更好地了解每個聚類。通過整合聚類和排名,有助于得到更易于了解的網絡分析結果。
在這一章中,我們介紹兩個基于排名的聚類算法rankclus和netclus。它們分别适用于異構資訊網絡的兩種特例,即雙類型網絡和星型網絡。對這兩種類型的網絡,我們需要使用異構連結來計算排名和基于排名的聚類。