天天看點

《中國人工智能學會通訊》——11.75 複雜資料融合與高效學習

在實際應用中,往往存在多種類型的資料,如符号型、數值型、集值型和缺失資料等。粗糙集作為資料模組化與規則提取的重要方法之一,已經取得了長足的進步,而其優點在于無需利用先驗知識就可以進行知識發現。但是,在面臨複雜資料時,往往不能很好地進行資料融合。而且,當複雜資料同時又高維、海量時,與其他模組化方法一樣,擁有時間消耗過長的缺點,乃至無法處理。為解決此類問題,我們引入了複合關系,提出了複合粗糙集模型[7] 。圖 3 給出複合粗糙集模型,可以說,複合關系是多種二進制關系的複合,它采用不同的二進制關系應對不同的資料類型,如等價關系處理類别型資料、鄰域關系處理數值型資料、相容關系處理集值型資料、特性關系處理不完備資料等。進一步地,根據複合二進制關系,定義了複合粗糙集中概念近似集的計算方法[7] 。

《中國人工智能學會通訊》——11.75 複雜資料融合與高效學習

我們知道,概念近似集與二進制關系的計算是基于粗糙集的屬性約簡和知識發現方法的核心步驟,高效計算近似集有助于此類技術有效應用于大資料。為解決這個問題,首先提出了複合粗糙集下基于矩陣的概念近似集計算方法。為應對高維、海量資料,又進一步提出基于 GPU 和 Multi-GPU 的并行計算概念近似集的算法。圖 4 給出了并行概念近似集計算流程圖。首先,我們将論域 U B 切分成若幹塊,每個子塊表示為 ,每個子塊可以計算得到二進制關系子矩陣 ,根據複合粗糙集定義可以計算得到上近似集子矩陣和下近似集子矩陣并彙總,最終得到上近似集矩陣 和上近似集矩陣 。具體實作中,我們可以用單個 GPU 來并行計算關系子矩陣 和近似集矩陣的子矩陣。進一步地,我們采用多個 GPU 來同時處理多個子塊的計算。

《中國人工智能學會通訊》——11.75 複雜資料融合與高效學習

我們在多個高維資料下進行了實驗驗證,表明基于 Multi-GPU 的并行算法可以獲得百倍以上的性能提升。

繼續閱讀