這一部分就是講資料的分析方法。要想分析資料,就先要對資料進行描述歸納。主要分為描述性資料挖掘和預測性資料挖掘。
描述性資料挖掘就是簡單描述資料,給出資料性質,常用泛化的方式進行(俗稱口胡)。
預測性資料挖掘是對資料模組化,預測新資料的行為。
描述性資料挖掘之後常伴随預測性資料挖掘。
概念描述是是描述性資料挖掘的一種最簡單的類型。(真·口胡,常用方法是泛化和比較)
資料泛化和基于彙總的特征化描述
資料泛化:低層次轉高層次(拔高了說,paper容易過審,霧),青年、中年代替實際年齡數
面向屬性的歸納:資料庫查詢,屬性統計然後泛化,合并相等的集合,作圖作表。
屬性相關分析:相關程度分析,用統計方法作資料預處理。
基于彙總的特征化描述:其實就是那些标志性資料代替整體
最後,還可以用圖形的方法顯示資料。典型的有直方圖、分位數圖、散點圖、回歸曲線等。
探索性資料分析
探索性資料分析(Exploratory Data Analysis,EDA)是指對已有資料在盡量少的先驗假設下通過作圖、制表、方程拟合、計算特征量等手段探索資料的結構和規律的一種資料分析方法。EDA強調讓資料自身“說話”,可以最真實、直接的觀察到資料的結構及特征。
EDA的技術手段主要包括:彙總統計進而可視化。
可視化分6種:
- 基于像素的可視化:常見的DEM可視化。
- 幾何投影可視化:散點圖。
- 基于圖符的可視化:切爾諾夫臉(莫名萌)。
- 層次可視化:多元資料集中某一維随其他維的變化而變化。
- 複雜對象和關系可視化:打标簽構成人物關系圖(明星大偵探看過沒?)。
- 資訊圖。
空間特征
空間特征分為空間位置特征(我在哪)和空間分布特征(在我哪)。
空間位置特征僅考慮位置特征,不考慮屬性特征或者僅将屬性特征作為權重。
比較典型的有特征點、距離特征、位置模型。常用度量參數是空間中心((橫坐标均值,縱坐标均值)以及衍生變化),特征點(重心,幾何中心)、鄰近特征、分布密度、方向分布(标準差橢圓:一個橢圓包住大部分點)和标準距離。
空間分布特征包括空間相關性、空間異質性和空間模式。
空間相關性基于Tobler第一定律,用資料之間的協方差和相關系數進行度量。
空間相關性的性質取決于
- 空間域(連續空間):空間分辨率或采樣密度。
- 對象(離散空間):空間聚合程度。
空間異質性是由于地球表面的多樣性,沒有任何一個地方可以合理的描述為空間均勻分布,幾乎每個地點都會表現出相對于其他位置某種程度的獨特性而産生的,是為全局所估計的總體參數并不能恰當的描述任何一個給定點的過程。(最後一句沒斷清楚句,老問題,定義類了解就行~空間異質性本質就是世界上沒有兩片相同的葉子)
空間異質性的度量則常用局部空間自相關(Moran I顯著性檢驗)、離散方差和地理權重回歸度量。
空間模式則主要分為點模式和面模式。點模式分為聚集分布和分散分布,分析方法有樣方分析、最鄰近距離分析和K函數分析。面模式用空間相關性度量,面模式的計算主要用I系數、C系數和G系數(狗頭)。
探索性空間分析
探索性空間資料分析:一般作為空間分析和空間資料挖掘的先導,進行資料清洗、篩選變量、提示模型選擇、檢驗假設等。
主要技術有:互動式和動态空間資料分析、地學可視化及可視化空間分布。
方法有:
- 刷光和連結(空間資料同步顯示與選擇)
- 直方圖
- Voronoi圖
- QQPlot分布圖
- 空間趨勢分析
- 半變差/自協方差函數雲
- 互協方差函數雲
(後兩種真的不會TAT~)