天天看點

歐拉聚類(Euler Clustering)

Euler Clustering, Jian-Sheng Wu, Wei-Shi Zheng, Jian-Huang Lai, IJCAI2013

1 簡介(Introduction)

Euler Clustering 作為一種特殊的 Kernel k-means 聚類算法,明式地映射實數空間的資料到相同維數的複數空間,使得它可以有效地處理大規模問題。

2 預備知識(Preliminary)

2.1 基于 Kernel 的 k-means(Kernel k-means)

Kernel k-means 首先使用一個核函數隐式的把資料點從原空間映射到 RKHS 空間(無限維空間資料線性可分),然後在 RKHS 空間 對資料進行聚類。

具體來說,

歐拉聚類(Euler Clustering)

為資料集,

歐拉聚類(Euler Clustering)

為映射函數,C 為聚類個數。kernel k-means 使用 通過最小化 distortion error 來聚類:

歐拉聚類(Euler Clustering)

其中 mc 為 聚類中心(representative prototype):

歐拉聚類(Euler Clustering)

獲得最優的 mc 後,剩餘的資料點配置設定給離它最近的 prototypes :

歐拉聚類(Euler Clustering)

但是由于資料點在 RKHS 空間的隐式表示,是以 cluster prototypes 不能被明式表示,是以隻能使用 kenel trick 來計算 mc

歐拉聚類(Euler Clustering)

明顯它要求較大的記憶體來存儲 full kernel matrix 。每次疊代要求 O(Cn2)

2.2 歐拉 Kernel(Euler Kernel)

不同于一般的 Mercer 核, Euler Kernel 矩陣 定義在複數空間(complex space)。Euler Kernel 矩陣的 第 (j, q) 個元為

歐拉聚類(Euler Clustering)

此外我們有 KH=K ,因為 Kqj=K−jq,− 表示複共轭操作(complex conjugate operator)。

Euler kernel 映射資料從 d 維實數空間(real space ) 到 d 維複數 RKHS 空間(complex RKHS space )

歐拉聚類(Euler Clustering)

其中 i 為虛數機關 ( imaginary unit)。

是以, RKHS 中 兩個映射點的平方Euclidean距離函數 d( ; )

歐拉聚類(Euler Clustering)
歐拉聚類(Euler Clustering)

這裡 d 為一個實數。是以盡管 kernel matrix 定義在複數空間,d 仍然可以用來度量兩個點之間的相似度。

3 歐拉聚類(Euler Clustering)

Euler kernel 明式地映射資料從實數空間到複數空間,它在複數空間的映射可以明式地表示。是以, cluster representative prototype mc

歐拉聚類(Euler Clustering)

根據 kernel k-means,有最優的 mc 為

歐拉聚類(Euler Clustering)

由(6)有

歐拉聚類(Euler Clustering)

由此我們推導出 Euler clustering 的準則:

歐拉聚類(Euler Clustering)

全部的算法如下:

歐拉聚類(Euler Clustering)

時間複雜性:

繼續閱讀