天天看點

白話空間統計二十九:空間插值(三)

上一篇文章發出來之後,M姐擰這我耳朵教育了我半小時:

白話空間統計二十九:空間插值(三)
白話空間統計二十九:空間插值(三)

這個問題,實際上在空間分析(統計)和空間計量(經濟)學兩個領域,早就打得不可開交了……空間分析裡面,特别是作為空間分析工具,本身是不考慮用于運算的資料是否合理,也就是你扔什麼資料進去,我就給你算什麼結果出來。

而空間計量學裡面,哪些名額可以用于進行分析,是需要有嚴格理論基礎的。空間分析(統計)講究的是名額結果,不考慮名額選取,而空間計量經濟學的名額選取是具有導向的。也就是說空間計量經濟學是所謂理論驅動,政策導向的學科。

白話空間統計二十九:空間插值(三)

 既然已經聊到這個問題了,那麼我們今天先來說說,什麼樣的資料可以用于插值。

首先,從插值的目的說起。

插值的目的并非生成新的資料,它的核心目的是用于補全未觀測到的資料。

畫重點——”補全“

也就是說,你插值出來的結果,是這個區域本身應該有的結果,而不是無中生有的結果。

比如降雨、氣溫、空氣品質這種資料,你的觀測站記錄的資料,隻是真實的資料的一小部分,其他的區域,并非沒有資料,而是沒有被觀測到,它們是客觀存在的。

這是插值的第一核心要務,并非生成新的資料,而是推算以補全沒有被觀測或者沒有被記錄到的資料。

白話空間統計二十九:空間插值(三)

其次,從插值的結果說起。

插值的結果,是記錄有觀測資料的連續栅格曲面

畫重點——”連續“

也就是說,它的結果必然是連續的,而且不會出現空缺。

插值生成的結果會鋪滿整個研究區域,每個栅格都會具有一個獨立的數值,這個數值代表的是這個區域裡面的被預測出來的結果:

白話空間統計二十九:空間插值(三)

上面M姐說到的用人口資料做插值,實際上就違背了上面兩個規則,如果用人口資料做插值,得到結果可能是這樣的:

白話空間統計二十九:空間插值(三)

人口采樣,代表是一個區域範圍,其他區間不代表可以通過這個點上面的值進行預測……如果要強行預測,把數值都填寫進去之後,整個區間被完全覆寫,那麼數值的整體可信度自然就比較尴尬了。

那麼下面我們來總結一下,哪些資料不能用于插值呢?

首先,累積聚合類的統計資料是不能用于插值的,比如人口采樣資料,又比如什麼車輛資料采樣(我見過用道路車輛資料來插值預測整個城市交通情況的……我要是他的導師:

白話空間統計二十九:空間插值(三)
白話空間統計二十九:空間插值(三)

還有諸如案件數量、供水能力、投資金額、動植物數量……等等這些,一句話,你的采樣值如果是通過聚合得來的資料,統統不能用來插值。

其次,結果為表達為離散的資料,也是不能進行插值的,比如平均身高,或者平均收入這種,理論上,平均身高和平均體重,可以通過插值來進行預測,也不會出現最終累積,但是這種有樣本類型的資料,隻能分布在有人類活動區域才有效,城市内可以,但是荒郊野外呢?長江大河上?海洋荒島上?這種資料,用插值的時候,需要特别注意,可以認為是有限定條件的來使用插值。

而可以用于插值的資料有哪些呢?

首先,就是自然科學類的資料(原則還是一樣:非聚合值)——自然界客觀存在,且不以人為意志所變更的資料,比如氣溫氣壓、降雨降水、高程、空氣品質、土壤化合物含量、地下礦産儲量(地統計學的原始研究對象)等等。

其次是與自然科學有關的人類活動觀測資料,比如空氣污染,比如水體污染,但是這些資料在使用的時候,會有限定條件:比如河流污染源插值,你的污染源還能向河流上遊蔓延麼?

第三,一些具有區域化特征的人文社科資料,也可以用于插值,比如在城市範圍内,用采樣區域的房價資料,來預測整個城市的房價分布。但是這樣的預測,也需要注意各種限定條件。

繼續閱讀