《異構資訊網絡挖掘：原理和方法》—— 第2章基于排名的聚類 2.1 概述

2021-11-08 06:07:25

本節書摘來自華章出版社《異構資訊網絡挖掘：原理和方法法》一書中的第2章，第2.1節，作者( 美）孫藝洲（yizhou sun），（美）韓家炜（jiawei han），更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

對于基于連結的異構資訊網絡聚類，我們需要探索涉及異構資料類型的連結。在這章中，我們學習如何使用不同類型的連結來計算不同類型對象的排名，展示排名和聚類如何互相提高，并最終獲得合理的排名和聚類結果。我們将學習異構資訊網絡的兩個特例：二進制類型網絡和星型網絡。

為了更好地了解資訊網絡，許多分析技術被設計出來，不過它們大多是基于同構資訊網絡的，其中兩個方法值得關注：排名和聚類。一方面，根據數學化展示對象特征的排名函數，排名評價資訊網絡中的對象。通過這類函數，兩個定性或定量的對象可以按一種偏序進行比較。其中pagerank［10］和hits［34］或許是資訊網絡中最著名的排名算法。另一方面，聚類按照特定的相似性評價将對象進行分組，是以相似的對象在同一聚類中，反之不相似的對象則在不同的聚類中。總之，作為兩個基礎性的分析工具，排名和聚類可以用來總覽資訊網絡，是以被廣泛地應用于各種應用。

聚類和排名通常被視為不相幹的技術，它們獨立地應用于資訊網絡分析。然而，若隻使用它們中的一個來分析資訊網絡常常會導緻不完整，甚至有時帶有偏見的分析結果。例如，在不考慮資訊網絡中各個對象所屬聚類的前提下對它們進行排名，容易導緻得到無用的結果。例如，将資料庫和計算機體系的刊物或作者混在一起排名，沒有什麼意義；另外，無差别地将大量對象（如數千作者）聚集到一個類中也是沒有意義的。然而，将兩個功能（聚類和排名）內建在一起，則能得到更易于了解的結果，如例21所示。

繼續考慮同一資料集。如果我們聚集在db/dm領域的刊物，并且對該聚類中的刊物和作者進行排名，可以得到表23所示的結果。

例2.1表明，好的聚類确實提升了排名結果的品質。而且，考慮對象的排名通常能更好地了解每個聚類。通過整合聚類和排名，有助于得到更易于了解的網絡分析結果。

在這一章中，我們介紹兩個基于排名的聚類算法rankclus和netclus。它們分别适用于異構資訊網絡的兩種特例，即雙類型網絡和星型網絡。對這兩種類型的網絡，我們需要使用異構連結來計算排名和基于排名的聚類。

《異構資訊網絡挖掘：原理和方法》—— 第2章基于排名的聚類 2.1 概述

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希

《異構資訊網絡挖掘： 原理和方法》—— 第2章 基于排名的聚類 2.1 概述

繼續閱讀

《異構資訊網絡挖掘：原理和方法》—— 第2章基于排名的聚類 2.1 概述