天天看點

ArcGIS新一代大資料挖掘技術

esri自2013年釋出了gis tools for hadoop,正式加入網際網路大資料廠商的行列,至今已經3年了。在這3年中風雲變幻,業界技術在不斷的發生着變更,esri的大資料戰略也在不斷的向前推進。 在剛剛結束的2016esri空間資訊技術開發者大會上,在it熱點技術專場的《arcgis平台下的大資料挖掘》,與往年相比,發生了明顯的變化。往年因為esri自身的原因,将大資料限定在空間大資料這個領域裡面。但是今年很明顯的發現,在arcgis的平台上,已将傳統的空間二字去掉,使得平台支援的領域更加廣泛。

實際上,地理資訊發展了這麼多年,如果說最能與網際網路大資料概念挂鈎的,隻有lbs(基于位置的服務)資料和遙感影像的資料。這兩類資料無論是從體量上,還是從生成速度、資料結構、次元以及價值密度上,都能夠與網際網路大資料的概念貼合。但是傳統的空間分析乃至于空間資料挖掘領域,卻更多是在地理空間統計樣本上進行分析。而且因為空間資料的特點,諸如空間自相關、空間異質性等空間統計學與傳統統計學截然不同的概念,使得很多的分析,無法采用網際網路大資料中那些分布式計算的方法來實作。

在esri中國進階咨詢師盧萌看來,“這一次開發者大會,從大資料的熱炒狀态中,回歸了地理分析的本源。”

盧萌在其《arcgis平台下的大資料挖掘》講座中談到,地理分析一直是地理資訊系統差別于其他系統最大的不同點。地理資訊首先是一個從不一樣的視角來看待整個世界。很多人都說,做地理資訊的人,每天都像神一樣,在離地幾百米以上的高空俯視着整個大地。而地理分析讓這個視角更進了一步,不但是從高空俯視着大地,而且通過不同的痕迹,可以讓我們的視野穿越過去未來,在更廣闊的空間和時間線了解發生了什麼事情。

其次,地理學研究的領域是所有領域中最為廣泛的,上至無窮的太空,下至人類所能探測到的最深的地底,都是地理學的研究範圍,很多研究都在改變着我們的生活。這樣一個廣泛的領域構成了一個巨複雜的系統,比之這個系統的龐大程度,特别是随着人類觀察手段的日益提升,網際網路所謂的大資料,在它面前,也都是九牛一毛。

在回歸地理分析本源的情況下,盧萌還介紹了新一代技術能夠給地理分析帶來什麼。

他認為,首先就是業界最流行的hadoop的mapreduce架構進化到2.0之後,對地理分析帶來的價值。本次開發者大會,首次在gis領域示範了新一代大資料分析架構spark的應用。

因為傳統的mpareduce架構對疊代運算的支援很不好,是以很多地理分析都無法運作在其上面,更多的隻是在它上面運作諸如過濾、聚合這樣的簡單的空間分析。而新一代的spark架構,因為其采用了彈性分布式資料集(rdd)這一特性,能夠使得在spark架構上,進行疊代運算的效率,超過傳統mapreduce的百倍以上。這樣,很多的分析算法就能夠直接跑在spark上面了,諸如空間分析領域中最重要的前提計算步驟:建構空間權重矩陣。利用spark的優勢,完全可以将龐大的空間權重矩陣加載到rdd中,然後每次運算都可以從預先建構的矩陣中快速擷取鄰近要素。這樣就讓很多在以前不可能實作、具有強空間自相關的分析在分布式叢集架構上運作了。

據盧萌透露,未來,esri的分布式并行計算架構,将慢慢的從mapreduce上轉移到spark上來。另外作為空間技術的業界上司者,esri也緻力于推動開源技術的發展。是以他建議有興趣的朋友可以從github上下載下傳最新的gis tools for hadoop,開始嘗試spark分析架構在空間分析領域給我們帶來的變化。

盧萌最後還指出,arcgis軟體作為平台級産品,無論是對空間資訊技術的支撐,還是對非空間資訊的内容進行支撐,都在不斷的進步。“從淘汰vb,将python作為官方指定腳本,到能夠在平台中直接引入r語言,都表明了這種趨勢,未來arcgis平台将更加強大,也會有更廣泛的應用。”

本文轉自d1net(轉載)