前言
雖然大型資料集可能得到更佳的挖掘結果,但未必能獲得比小型資料集更好的挖掘結果
對于多元資料,一個主要的問題是在所有次元中搜尋所有挖掘方案之前,是否可以确定某方法在已歸約資料集的挖掘和發現中國發揮得淋漓盡緻。
一、大型資料集的次元
資料的描述以及特征的挑選,歸約或轉換可能是決定挖掘方案品質的最終更要問題。
預處理集的3個主要次元通常表示為平面檔案即列,行和特征的值
是以資料歸約的3個基本操作就是删除列,删除行和減少列中值的數量。這些操作的目的是試圖删掉不必要的資料來保留原始資料的特征
在準備資料挖掘時候,要執行标準的資料歸約操作,需要了解通過這些活動可以得到什麼或者失去什麼? 則需要全面比較需要分析下面的參數:
1) 計算時間—— 資料歸約後的比較簡單資料,是否可以減少資料挖掘所消耗的時間
2) 預測/描述精度
3) 資料挖掘模型的描述—— 簡單的模型描述通常來自資料歸約,這往往意味着模型能得到更好的了解。所導出的模型和其他結果的這種簡易性依賴于對模型的描述。
理想情況下,使用次元歸約既能減少時間又能提高精度,簡化模型的描述。
資料歸約推薦的特性描述如下:
可測性—— 應用已歸約的資料集合可精确的确定近似結果的品質
可識别性——在應用資料挖掘程式之前,在資料歸約算法運作期間,很容易确定近似結果的品質
單一性——算法往往是疊代的,計算結果的品質是時間和輸入資料品質的一個非遞減的函數
一緻性——計算結果的品質與計算時間及輸入資料品質有關
收益遞減——方案在計算的早期能獲得很大的改進,但是随着時間遞減
可中斷性——算法可以随時停止,并給出答案
優先權——算法可以暫停并以最小的開銷重新開始