文章用紅色字型标記出來的内容是修正後的内容,感謝四川的楊同學對我以前的錯誤提出指正。
在次對因為錯誤産生的誤導誠摯的道歉,希望大家以後發現問題之後盡快與我聯系,感謝各位同學的支援。
終于寫到我最喜歡的一個的工具(算法)了,方向分布是蝦神我接觸的第一個空間統計工具,也是每次講空間統計必須要講的一個,也是對點資料分析中很有用的一個工具。
點模式的分析中,一般會考察如下五種内容:
1、點的疏密,包括點資料的分布探索,是否一緻、均勻或者不均勻。
2、點的方位,包括點的分布和方向。
3、點的數量:多少(極值和均值)。
4、點的大小:代表的含義(如點一個點代表多少人口)。
5、其他,如點的一些動态變化等。
(關于點資料分析的其他詳細的内容,請看蝦神以前的文章,或者再公衆号裡面回複“點分析”)
其中,我們前面說的好幾種算法,如中心要素、中位數中心和平均中心,都是關于點方位的分析,那麼今天我們要講的這個算法,就是同時對點的方向和分布進行分析的一種經典算法——标準差橢圓。
這算法最早是由美國南加州大學(Universityof Southern California)社會學教授韋爾蒂.利菲弗(D. Welty Lefever)在1926年提出,是以有的書裡面,也把這個算法稱為Lefever's "Standard DeviationalEllipse"(利菲弗方向性分布)(又到每天的曆史起源科普時間……)。
這個算法最大的特點,就如同他的名詞一樣,是用來度量一組資料的方向和分布的,生成的結果又正如他的别名一樣,會輸出一個橢圓,如下:
紅色的點是傷寒發病的案例,藍色的河流是長江太湖流域段,從計算的結果來看,發病的資料方向與長江的流向方向基本一緻,而範圍較大。
從上圖,我們基本上就可以看出方向分布工具的主要作用了,它可以識别一組資料的方向以及分布的趨勢,并且了解到這份資料是否具有一些特性,至于有哪些特性,我們後面再說。
我們先來看看這個标準差橢圓的生成算法。
其實算法很簡單,要畫出一個橢圓,雖然比畫圓麻煩點,但是也麻煩不了多少,關鍵的參數如下:
1、确定圓心。
2、确定旋轉角度。
3、确定XY軸的長度。
這些參數,算法裡面都給了我們很清晰的公式,隻要依照公式來計算就可以了。
首先是确定圓心,方向分布工具的圓心,直接利用的是算數平均中心來計算橢圓的圓心(算術平均中心請檢視我在2015年8月17日寫的《空間統計之八:平均中心和中位數中心》一文)
然後就确定橢圓的形式了,公式如下:
其中,Xi和Yi是每個要素的空間位置坐标,X和Y是算數平均中心。
SDEx和SDEy就是計算出來的橢圓的方差,總所周知,橢圓的大小取決于方差大小,長半軸表示最大方差,短半軸表示最小方差,在空間統計上面,用X、Y的方差進行計算,得到長短半軸。
然後确定橢圓的方向,以X軸為準,正北方(12點方向)為0度,順時針旋轉,計算公式如下:
最後确定XY軸的長度,公式如下:
标準差的作用是确定橢圓的方程,一般橢圓方程如下:
S是置信度的值,可以根據資料量來查詢卡方機率表(Table:Chi-Square Probabilities),這個大家有興趣去百度一下就有了。
把所有的資料都帶入到公式中,就很容易的把所有的參數都計算出來,接下去隻需要再地圖上畫出結果就行。
那麼這個橢圓揭示了一些什麼意義呢?
使用ArcGIS的話,方向分布工具除了生成這樣一個橢圓以外,還會給出如下結果:
其中,Shape_Leng和Shape_Area是生成的橢圓的周長和面積,機關與你資料的機關相同,這裡我的資料是經緯度的,是以生成的結果隻能作為相對參考結果。
CenterX和CenterY表示的是橢圓的中心點。
XstdDist和YStdDist表示的X軸的長度和Y軸的長度。
Rotation表示的是橢圓的方向角度。如下:
結果解讀如下:
1、橢圓的長半軸表示的是資料分布的方向,短半軸表示的是資料分布的範圍,長短半軸的值差距越大(扁率越大),表示資料的方向性越明顯。反之,如果長短半軸越接近,表示方向性越不明顯。如果長短半軸完全相等,就等于是一個圓了,圓的話就表示沒有任何的方向特征。
2、短半軸表示資料分布的範圍,短半軸越短,表示資料呈現的向心力越明顯;反之,短半軸越長,表示資料的離散程度越大。同樣,如果短半軸與長半軸完全相等了,就表示資料沒有任何的分布特征。
3、中心點表示了整個資料的中心位置,一般來說,隻要資料的變異程度不是很大的話,這個中心點的位置大約與算數平均數的位置基本上是一緻的,至于資料變異是什麼情況,請看下面第4點。
4、有的同學會很疑惑,為什麼你畫的這個橢圓,還有很多的點都在外面,沒有把所有的點都包含進去?那麼就是就是“标準差橢圓”這個名詞裡面的“标準差”的含義所在了。
在ArcGIS工具裡面(其他的工具也都差不多),提供了“橢圓大小”(Ellipse_Size)這個參數,這個參數表示你生成的橢圓的級别,一共有三個,如下表:
三個級别的橢圓,分别表示了你生成的橢圓,能夠包含68%,95%和99%三個級别的資料,我們通過可以指定要表示的标準差數(1、2 或 3)來決定你生成的橢圓包含的資料比例。
當要素具有空間正态分布時(即這些要素在中心處最為密集,而在接近外圍時會逐漸變得稀疏),第一級标準差(預設值)範圍可将約占總數 68% 的輸入要素的質心包含在内。第二級标準差範圍會将約占總數 95% 的要素包含在内,而第三級标準差範圍則會覆寫約占總數 99% 的要素的質心。
是以,當你選擇不同标準差等級的時候,你發現你的中心點的位置也可能不同。
當然,作為空間分析工具,方向分布一樣可以進行權重計算,這個計算主要還是與中心點的位置确定以及橢圓标準差等級生成的橢圓大小有關系。
下面我們來通過一個執行個體來了解方向分布工具的應用:
一共有兩年的傷寒病資料,如下,紅色的是2000年的,藍色是2001年的:
使用1個标準差的結果,生成的橢圓如上,具體資料如下:
我們對關鍵性的兩個名額進行對比:
生成面積表示範圍,可以發現2000的傷寒病發病情況的範圍要大于2001年的,扁率表示他的方向明确性和向心力的程度,2000年生成的橢圓扁率遠高于2001年的,說明了2000的傷寒發病情況,比2001年的方向趨勢更明顯。
2000年生成的橢圓方向與長江的方向基本相相符,是以2000年的傷寒發病源與長江的關系較為密切。而2001年的發病情況雖然方向性并不如2000年的明顯,但是長半軸幾乎與長江垂直,可以基本确認,2001年傷寒發病源與長江關系不大,但是呈現向内陸爆發的趨勢。
方向分布工具在空間統計中是綜合能力最突出的工具之一,有着廣泛的應用,在我們的分析和資料探索的時候,能夠起到非常重大的作用。
最後,列出幾個可能的應用:
1、可用來在地圖上标示一組犯罪行為的分布趨勢,并且能夠确定該行為與特定要素(一系列酒吧或餐館、某條特定街道等)的關系。
2、在地圖上标示地下水井樣本的特定污染,可以訓示毒素的擴散方式,這在部署應急防災政策時非常有用。
3、對各個物種所在區域的橢圓的大小、形狀和重疊部分進行比較可以分析與物種入侵或者隔離相關的深入資訊。
4、繪制一段時間内疾病爆發情況的橢圓可用于建立疾病傳播的模型。