天天看點

地理資訊|空間資料挖掘預處理

​空間資料挖掘在擷取資料後第一件事情就是對資料進行預處理。

預處理原因:資料品質差

  1. 資料不完整
  2. 噪聲
  3. 不同資料源擷取的統一資料不一緻

而高品質的資料才有高品質的結果,預處理目的有兩個,提高資料品質,加快挖掘資訊的速率。

預處理的主要任務有:

  1. 資料清理:填空缺,去噪聲(這兩個一般用插值),識别或删除離群值(與實際情況偏離較大但是不是噪聲的有用點),解決不一緻(看資料的可靠性之類的)
  2. 資料內建:內建到資料庫,資料立方體(邏輯上等同于EXCEL資料透視表),檔案
  3. 資料歸約:資料集簡化的表示,了解為小資料集,能得到大資料集相同或相似的結果。主要方法有給出特征子集(就是删多餘資料),主成分分析。
  4. 資料變換:規範化。
  5. 資料離散化:離散化資料,概念分層。各種劃分方法:分級,直方圖,聚類,決策樹~

具體處理不說了,一般來說就是正常統計方法和線性平滑。

新出來的概念大概是資料庫、資料倉庫和資料立方體。

資料倉庫:一個面向主題的、內建的、時變的、非易失的資料集合,支援管理部門的決策過程。

地理資訊|空間資料挖掘預處理

資料庫與資料倉庫差別

(感覺類似面向流程和面向對象~蜜汁感覺)

資料倉庫基于多元資料模型,其中資料立方體最為典型。

看了一大圈,才發現思想和EXCEL資料透視圖一樣一樣的。就是能把不同的次元抽出來可視化,但實際底層儲存應該還是和資料庫差不多,都是一張張表。

地理資訊|空間資料挖掘預處理

事實表對應資料庫,維表對應資料倉庫,不同的維組成資料立方體。對某一資料立方體能進行上卷、下鑽、切片和切塊、轉軸等操作。

地理資訊|空間資料挖掘預處理

上卷:某一次元進行合并,比如6個城市歸并到兩個國家。

下鑽:與上卷對應,2個國家拆成6個城市。

切塊:隻取資料立方體一部分研究,得到立方體一塊。

切片:隻取資料立方體一個次元裡面的一項。如之前研究全國,現在隻研究一個城市。

轉軸:坐标轉換...

最後,上升到專業——空間資料挖掘預處理。

emmm,感覺沒啥多的東西,就是把人家資料挖掘的東西套在地理層面上...

空間資料倉庫:面向主題的、內建的、時變的和非易失性的空間和非空間資料的集合,支援空間資料挖掘和與空間資料相關的決策過程。(真就生搬硬套概念...)

實作方面主要多了GIS技術,采用星型/雪花模式。

地理資訊|空間資料挖掘預處理

(大的事實表催生各種次元表)

空間資料立方體可以有三個基本維:非空間維(非空間資料,如降雨,氣溫),矢量維(矢量資料)和栅格維(栅格資料)。以及催生了4種混合維。

地理資訊|空間資料挖掘預處理

最後講空間資料挖掘的時候,感覺總體向空間資料倉庫偏移,然後有種努力想建立體系但是又很雜反而說不出來很多東西的感覺...(當然,也有可能我太菜了QAQ,反正就是建立不了體系,這章其實讀下來,通篇就四個字,資料倉庫....)

繼續閱讀