天天看點

地理資訊|概述——空間資料挖掘與知識發現

一、背景

大資料時代到來。資料得到了極大豐富,但是知識卻極其匮乏。

簡單來說:這門課就是現在産生資料的方式多了,資料量爆炸,但是資料太多不好處理,得不到關鍵資訊,就要采用某些方法提取有用資訊,資料挖掘應運而生。

這門課程将資料挖掘放在地理上,就是空間資料挖掘。這門課分兩部分,資料挖掘和應用到地理上的一些算法。

二、定義          

資料挖掘:從大量資料中提取或發現(挖掘)有趣模式和知識的過程。

另外一種定義是從資料集中識别出有效的、新穎的、潛在有用的,以及最終可了解的模式的非平凡過程。

衆所周知,定義除了考試中回答名詞解釋沒什麼卵用,了解就好~這個定義槽點太多。

有趣:意思就是我覺得好玩就行,我有興趣就可以,如果恰好有比較好的結果,那就是一篇paper。(衆所周知,科研是有趣的)

有效的:結論還有别的适用情況。

新穎的:别人沒想到/懶得做的。

潛在有用性:結論能在生活中做出一點微小的貢獻。

最終可了解性:我知道你會知道我知道的。

非平凡:正在進行的資料挖掘過程是偉大的!

地理資訊|概述——空間資料挖掘與知識發現

三、過程          

過程分三步:資料準備(米),資料挖掘(巧婦),結果解釋(炊/吹)。

能不能得到好的結果靠前兩項,有沒有paper靠吹。

課件裡面一句話巨真實,看的時候笑出聲。嚴肅的來說,科研是曲折的。(噗嗤)

地理資訊|概述——空間資料挖掘與知識發現

資料準備過程中,資料一般用各種資料庫和資料倉庫進行存儲與管理。

資料挖掘,用各種技術挖掘“有趣”的模式。(真心覺得不如把有趣改成有用)

地理資訊|概述——空間資料挖掘與知識發現

(又講了一遍定義...)

至于各種技術的思路,都非常符合正常人的想法:篩選和窮舉。

篩選:選出所有的模式,過濾無趣的。

窮舉:僅找有趣的模式(我認為有趣的就是有趣的,這種方法像不像“海底撈”)。

具體方法大概可以整理到下面這張圖。

地理資訊|概述——空間資料挖掘與知識發現

之後給出一些資料挖掘的工具,無非就是R語言,Python,Java的統計分析工具,在此就不叨叨了。

而關于結果解釋,主要和研究者應用目的相關。(恰恰是我研究的就是有趣的,嗯,搞科研的正常心态)但不得不說确實資料挖掘在如今商業化分析中占有重要地位。

地理資訊|概述——空間資料挖掘與知識發現

四、空間資料挖掘          

最後回到專業——空間資料挖掘。

定義:是在空間資料集合中發現知識,提取感興趣的空間模式和特征、空間資料與非空間資料之間的聯系以及其它資料特點的過程。

主要研究空間資料的機率分布模式、聚類和分類特征、屬性間的依賴關系以及時空自相關和互相關特征等。

簡單來說:在地圖上加載海量資料,提取好玩的規律。

難點:空間資料的複雜性(資料量大),空間關系(地圖自帶),空間自相關性(我在故我在,而有的就不能在,有的必須在)。

地理資訊|概述——空間資料挖掘與知識發現

空間資料挖掘的主要内容

最後也是給了一些主要的空間資料挖掘方法和工具。

地理資訊|概述——空間資料挖掘與知識發現

工具:Arcgis,GeoDA,資料挖掘的傳統工具。

繼續閱讀