摘要
因為無标簽和高維資料的不斷增長,無監督特征選擇成為了一個重要且具有挑戰的問題在機器學習當中。同時無監督學習方法要求構造相似性矩陣,是以使得特征選擇依賴于結構的學習。但是現實世界中的資料包含很多噪音,無法完全依賴于相似性矩陣。是以,本文提出一種無監督特征選擇的方法能夠有效選擇特征,同時我們構造的相似性矩陣,能夠從資料中獲得更精确的有用資訊。
相關工作
現有方法的問題:
- 不可靠的相似矩陣
- 近鄰配置設定不當
方法論–SOGFS
1 資料集X,相似性矩陣S,原始目标函數:
2 樣本與樣本之間的差異載乘上相似性矩陣,同時對相似性矩陣乘上正則化參數作為限制
3 引入拉普拉斯矩陣,用來反映特征對資料集的局部儲存特征 同時拉普拉斯矩陣的秩為n-c,這裡的c表示連接配接部分,也就是相關性強的部分
4 再引入W矩陣,XW作為線性連接配接,且W為稀疏矩陣
這樣對原始資料進行了兩次篩選,對資料進行權重的設定,選擇出較優的樣本後,計算圖結構,提取結構特征
優化算法
1 利用拉格朗日的KTT條件,構造需要疊代優化求解的目标函數
2 固定S更新W
3 固定S更新F
4 固定W和F更新S
不斷疊代直到收斂
關于參數的設定:aifa表示樣本鄰居的數目
鄰居的數目是對樣本按照從高到低的順序依次排序的結果
論文連結:連結:http://pan.baidu.com/s/1mi80dtu 密碼:gymm