空間資料挖掘在擷取資料後第一件事情就是對資料進行預處理。
預處理原因:資料品質差
- 資料不完整
- 噪聲
- 不同資料源擷取的統一資料不一緻
而高品質的資料才有高品質的結果,預處理目的有兩個,提高資料品質,加快挖掘資訊的速率。
預處理的主要任務有:
- 資料清理:填空缺,去噪聲(這兩個一般用插值),識别或删除離群值(與實際情況偏離較大但是不是噪聲的有用點),解決不一緻(看資料的可靠性之類的)
- 資料內建:內建到資料庫,資料立方體(邏輯上等同于EXCEL資料透視表),檔案
- 資料歸約:資料集簡化的表示,了解為小資料集,能得到大資料集相同或相似的結果。主要方法有給出特征子集(就是删多餘資料),主成分分析。
- 資料變換:規範化。
- 資料離散化:離散化資料,概念分層。各種劃分方法:分級,直方圖,聚類,決策樹~
具體處理不說了,一般來說就是正常統計方法和線性平滑。
新出來的概念大概是資料庫、資料倉庫和資料立方體。
資料倉庫:一個面向主題的、內建的、時變的、非易失的資料集合,支援管理部門的決策過程。
資料庫與資料倉庫差別
(感覺類似面向流程和面向對象~蜜汁感覺)
資料倉庫基于多元資料模型,其中資料立方體最為典型。
看了一大圈,才發現思想和EXCEL資料透視圖一樣一樣的。就是能把不同的次元抽出來可視化,但實際底層儲存應該還是和資料庫差不多,都是一張張表。
事實表對應資料庫,維表對應資料倉庫,不同的維組成資料立方體。對某一資料立方體能進行上卷、下鑽、切片和切塊、轉軸等操作。
上卷:某一次元進行合并,比如6個城市歸并到兩個國家。
下鑽:與上卷對應,2個國家拆成6個城市。
切塊:隻取資料立方體一部分研究,得到立方體一塊。
切片:隻取資料立方體一個次元裡面的一項。如之前研究全國,現在隻研究一個城市。
轉軸:坐标轉換...
最後,上升到專業——空間資料挖掘預處理。
emmm,感覺沒啥多的東西,就是把人家資料挖掘的東西套在地理層面上...
空間資料倉庫:面向主題的、內建的、時變的和非易失性的空間和非空間資料的集合,支援空間資料挖掘和與空間資料相關的決策過程。(真就生搬硬套概念...)
實作方面主要多了GIS技術,采用星型/雪花模式。
(大的事實表催生各種次元表)
空間資料立方體可以有三個基本維:非空間維(非空間資料,如降雨,氣溫),矢量維(矢量資料)和栅格維(栅格資料)。以及催生了4種混合維。
最後講空間資料挖掘的時候,感覺總體向空間資料倉庫偏移,然後有種努力想建立體系但是又很雜反而說不出來很多東西的感覺...(當然,也有可能我太菜了QAQ,反正就是建立不了體系,這章其實讀下來,通篇就四個字,資料倉庫....)