天天看點

白話空間統計二十三回歸分析番外:殘差可視化

對于可視化來說,GIS有先天的優勢……俺們天生就是畫地圖的,不過首先要限于可空間化的情況下……如果要分析的資料非空間資料,結果也沒有空間化的可能,那麼就涼拌了。

不過大家放心啦,作為微信平台裡面專門講空間分析和空間統計的公衆号:蝦神daxialu,老夫是不會讓這種事情發生的……是以今天雖然還是講回歸分析,那麼我也要弄成帶有空間資料的回歸可視化。

首先,還是用山東的資料吧……首先挑選了五個次元,回歸因變量選擇财政收入,自變量選擇工業總産值,消費品零售額,總出口以及固定資産投資,然後進行一進制線性回歸:

白話空間統計二十三回歸分析番外:殘差可視化

進行回歸之後,發現全是正向影響因素,然後進行一下VIF檢驗:

白話空間統計二十三回歸分析番外:殘差可視化

根據經驗公式,超過11的話,就表示存在嚴重的多重共線性,而這裡計算出來的都在4一下,表示選擇的這些變量之間不存在多重共線性,回歸的結果是可信的。

好了,上面的計算部分有不是今天的重點,下面開始對回歸分析的結果進行可視化。

首先進行四個自變量系數的可視化,一般來說,系數越大的,表示貢獻度越大,可視化的方式用R語言裡面的ggplot2這個神包:

白話空間統計二十三回歸分析番外:殘差可視化

四個次元裡面工業總産值對财政收入的貢獻度最低……總出口的貢獻度最高,從這裡可以看出來,我國所謂的經濟三架馬,投資、消費、出口,出口效果果然還是最好的……而工業總産值,對地方财政的收入,基本呵呵呵呵……

下面來看看另外一個重要資料,就是殘差,先進性殘差的圖表可視化:

白話空間統計二十三回歸分析番外:殘差可視化

好吧……山東137個縣區,平鋪出來之後,不知道大家是啥感覺,反正蝦神看完之後是這樣的:

白話空間統計二十三回歸分析番外:殘差可視化

是以,現在可以看出來,使用空間可視化的重要了……下面進入空間可視化階段……什麼?你說用ArcGIS,好吧,雖然這個是蝦神的老本行,但是這次我想先用R語言來把這事幹了。(另外,這篇文章能算leaflet的番外篇麼)。

先看看效果:

白話空間統計二十三回歸分析番外:殘差可視化

雖然正向殘差少于負項殘差(正向62個,負向75個),但是因為正向部分的極差大于負向,是以整個地圖的主色調都是偏向綠色。現在來修正一下整個地圖的風格。

我們要看殘差的話,不管是正向殘差還是負向殘差,都是殘差,是以我們先進性一個絕對值化,把所有資料都取絕對值,那麼整個地圖的風格就變成這樣了:

白話空間統計二十三回歸分析番外:殘差可視化

這樣看來,大部分的殘差,都比較少(當然少啊……R-squared都到了0.8+ 了),也就說明這個回歸分析的可信度還是挺高的,且在地域上的差異不是特别大。

另外,在看看特别紅的那個部分……又是蝦神最喜歡的格林蘭(greenland)……當然,我們更習慣叫它青島。再次回到最初分析資料的次元:用工業總産值、零售額、固定資産和出口來對财政收入進行回歸,貢獻系數最大的是進出口,我大格林蘭,額,還是叫青島吧……我大青島作為世界知名港口城市(2015年世界排名第八),出口量自然不是吹的,但是為什麼殘差最大的也在青島了,仔細看看,最紅這個地方,是青島市的崂山區……好吧,回頭來看看資料:

白話空間統計二十三回歸分析番外:殘差可視化

百億的财政收入,貢獻系數最大的出口,隻有49億……是以才會出現正向殘差最大(正向殘差表示預測值太低了)。那麼從資料上可以得到這樣一個結論:崂山區的财政收入,有其他因素的支援。(猜也猜出來了啊……作為國内旅遊聖地的崂山,自然第三産業裡面最賺錢的旅遊啊!)

如果有用過ArcGIS 中空間統計工具的OLS工具的話, 發現分析完成了之後會給出一個與标準差的倍數對比的可視化圖出來(以标準差為基準,離标準差越遠,表示殘差越大),從這種可視化結果,可以更清晰的看出殘差的分布。那麼下面用R來實作這個功能:

分析完之後,發現負殘差最大的兩個城市,分别是煙台市的福山區和淄博市的張店區:

白話空間統計二十三回歸分析番外:殘差可視化
白話空間統計二十三回歸分析番外:殘差可視化

負向殘差表示預測值太高,實際值遠遠小于預測值(高估),來看看這兩個城市的資料:

白話空間統計二十三回歸分析番外:殘差可視化

先看張店區,隻有15億的出口,但是有70多億的财政收入,也就說明,要麼整體系數中出口的系數,對張店區的貢獻估計不對,要麼像崂山一樣,有其他的因素。

然後看福山區:153億的出口……好吧,幾乎除青島以外,在山東一騎絕塵了,但是财政收入也隻有109億,說明有其他的負向因素影響了他的财政收入。

正殘差最大的是青島市的崂山區:

白話空間統計二十三回歸分析番外:殘差可視化

那麼這些漂移太大的地區,就是所謂的分析的蠻點或者說異常區域,也有可能是我們下面需要重點研究的區域,如何進一步研究呢?那就要繼續所謂的地理權重回歸了。

待續未完。

繼續閱讀