Euler Clustering, Jian-Sheng Wu, Wei-Shi Zheng, Jian-Huang Lai, IJCAI2013
1 簡介(Introduction)
Euler Clustering 作為一種特殊的 Kernel k-means 聚類算法,明式地映射實數空間的資料到相同維數的複數空間,使得它可以有效地處理大規模問題。
2 預備知識(Preliminary)
2.1 基于 Kernel 的 k-means(Kernel k-means)
Kernel k-means 首先使用一個核函數隐式的把資料點從原空間映射到 RKHS 空間(無限維空間資料線性可分),然後在 RKHS 空間 對資料進行聚類。
具體來說,
為資料集,
為映射函數,C 為聚類個數。kernel k-means 使用 通過最小化 distortion error 來聚類:
其中 mc 為 聚類中心(representative prototype):
獲得最優的 mc 後,剩餘的資料點配置設定給離它最近的 prototypes :
但是由于資料點在 RKHS 空間的隐式表示,是以 cluster prototypes 不能被明式表示,是以隻能使用 kenel trick 來計算 mc
明顯它要求較大的記憶體來存儲 full kernel matrix 。每次疊代要求 O(Cn2)
2.2 歐拉 Kernel(Euler Kernel)
不同于一般的 Mercer 核, Euler Kernel 矩陣 定義在複數空間(complex space)。Euler Kernel 矩陣的 第 (j, q) 個元為
此外我們有 KH=K ,因為 Kqj=K−jq,− 表示複共轭操作(complex conjugate operator)。
Euler kernel 映射資料從 d 維實數空間(real space ) 到 d 維複數 RKHS 空間(complex RKHS space )
其中 i 為虛數機關 ( imaginary unit)。
是以, RKHS 中 兩個映射點的平方Euclidean距離函數 d( ; )
這裡 d 為一個實數。是以盡管 kernel matrix 定義在複數空間,d 仍然可以用來度量兩個點之間的相似度。
3 歐拉聚類(Euler Clustering)
Euler kernel 明式地映射資料從實數空間到複數空間,它在複數空間的映射可以明式地表示。是以, cluster representative prototype mc
根據 kernel k-means,有最優的 mc 為
由(6)有
由此我們推導出 Euler clustering 的準則:
全部的算法如下:
時間複雜性: