天天看點

《Python地理空間分析指南(第2版)》——1.9 地理資訊系統基本概念

本節書摘來自異步社群《python地理空間分析指南(第2版)》一書中的第1章,第1.9節,作者: 【美】joel lawhead(萊哈德) 更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

在進行地理空間分析之初,你非常有必要了解該領域的一些關鍵概念。這份學習名單并不長,但是幾乎所有分析方面的内容都和它們有關。

1.9.1 專題地圖

顧名思義,專題地圖是表達某些特定主題的地圖。用于導航和制定計劃的參考地圖一般都會直覺地反映相關的地理特征。專題地圖不僅能夠提供位置資訊,而且可以根據主題展示某一區域的地理環境資訊。通常,專題地圖是為了解答目标使用者的特定問題而存在的。專題地圖的價值在于它沒有顯示的部分。一張專題地圖将采用最少的地理特征來避免分散讀者注意力。大部分專題地圖包括國界和省界,但是會忽略如街道名、興趣點和路标等導航資訊。

本章前面講述的john snow制作的霍亂分布圖是專題地圖的極佳範例。專題地圖一般用來直覺表示健康問題(例如疾病)、選舉結果以及氣象環境如降雨量等。同時很多地理空間分析的結果也是由專題地圖構成。美國人口普查局曾對每個州的癌症死亡率作過調查統計,也屬于專題地圖的範例。

專題地圖講述了一個特别的故事,并且是非常有用的。但是需要注意的是,專題地圖和其他地圖一樣都是對實際生活的模組化,它們也是一種資訊而已。兩個不同的分析人員使用相同的資料源可能因為分析群組織資料的方式不同而産生兩種差異巨大的專題地圖。也許他們對資料集的關注點不一樣。專題地圖的技術性導緻人們一廂情願地認為它們都是科學客觀的,但是地理空間技術常會被誤用。即使采用了科學的資料,如果分析師沒有嚴謹的遵循科學方法的話也是徒勞。在mark monmonier撰寫的經典圖書how to lie with maps(芝加哥大學出版社)中,詳細講述了如何使用地圖歪曲地展示一些現實中的事物,而且它們都被嚴重地濫用了。這個事實并不能貶損這些工具的價值。傳奇統計學家george box在1987年寫的書中指出,建築模組化隻靠經驗并且流于表面,“本質上來說,所有的模型都是錯誤的,但是部分模型非常有價值。”專題地圖曾經用來指導開始(結束)戰争、追蹤定位緻命病毒、選舉獲勝、國際援助、消除貧困、瀕危物種保護以及災難救援等。專題地圖也許是有史以來建立的最有用的模型。

1.9.2 空間資料庫

以純粹的方式來看,資料庫僅僅是一個有序的資訊集合。資料庫管理系統(database management system,dbms)就是能和資料庫互動的軟體。人們常用辭海作為包羅萬象的術語,其實指的是dbms和底層資料結構。資料庫通常包含字母和數字等類型的資料,在某些情況下還包括二進制大對象或blobs,例如它們能夠将圖檔以二進制格式存儲。大部分資料庫還支援關系型資料庫結構,規範化的表之間可以互相引用來建立一對多和多對多的關系。

空間資料庫,又叫地理空間資料庫,它通過特定軟體擴充了普通的關系型資料庫管理系統(relational database management system,rdbms)的功能,這樣就可以達到存儲和查詢二維、三維空間資料的目的。其中某些系統還能夠記錄資料的時間序列。在空間資料庫中,地理特征的屬性可以像普通的關系型資料庫那樣存儲和查詢。空間擴充功能還支援使用結構化查詢語言(structured query language,sql)像一般的資料庫那樣查找幾何圖形。空間查詢和屬性查詢的結果還可以根據地理位置和屬性進行組合。

1.9.3 空間索引

空間索引是為了更快地讀取地理空間矢量資料的組織過程。它主要用于查詢和渲染等操作的資料預過濾。索引通常是大型資料庫優化查詢效率一種方式。空間資料與此類似。即使一個中等規模地理空間資料庫也能存儲上百萬的點和對象。如果你執行了一次空間查詢操作,那麼系統必須對資料庫中的所有記錄都掃描一遍,以便确定這些記錄是否應該包含在查詢結果中。空間索引可以将資料分組,這樣就可以在系統進行實際查詢操作之前經過簡單的計算校驗就能夠過濾大量的資料記錄,進而提高查詢效率。

1.9.4 中繼資料

中繼資料是關于資料的資料。是以,地理空間中繼資料是和地理空間資料集有關的資料,它提供了可以追溯地理空間資料集源頭和曆史的能力,以及相關的技術概要資訊。同時中繼資料為資訊的長期儲存提供了支援。地理空間中繼資料表現形式多樣。其中最有影響力的是國際标準iso 19115-1,其中包括幾百個預定義的字段用于描述一個獨立的地理空間資料集。此外,iso 19115-2還為地理空間影像資料和網格資料提供了支援。某些示例字段包括空間表達、時間範圍和族系資訊。中繼資料主要的用途是資料集編目。現代中繼資料可以和地理搜尋引擎內建進而被其他系統自動調用。如果你對資料集有疑問,它還可以顯示和資料集相關的資訊點。中繼資料是地理空間分析的重要支撐工具,同時還為你的工作增加了可通路性和可信度。開放地理空間資訊聯盟(open geospatial consortium,ogc)建立了網絡目錄服務(catalog service for the web,csw)标準來管理中繼資料。

1.9.5 地圖投影

地圖投影的知識可以專門編寫一本書來進行介紹,并且它可能對于初選者來說是個挑戰。如果你将某個三維對象拍扁放在一個平面上,就像你的螢幕或者一張紙,那麼三維對象就被扭曲了。許多國小的地理課堂上常常會讓學生剝開一個橘子,然後将橘子皮平鋪在課桌上來示範這一概念。當你将圓形的地球投影到電腦螢幕上時,和上述的情況是類似的。

在地理空間分析中,你可以控制這種失真并保留一些常見的屬性,如面積、比例、軸線,距離和形狀等。地圖投影沒有一個放之四海而皆準的方法。投影方法的選取常常是轉換精度誤差較小方案間的折中。投影通常是由包含超過40個參數的xml或文本檔案構成,一般我們叫它wkt(well-known text ,wkt),其内容是投影算法定義。

國際油氣生産者協會(international association of oil & gas producers,iogp)維護着一套非常有名的投影标準。該組織的前身是歐洲石油測繪組織(european petroleum survey group,epsg)。不過标準中的條目仍然使用了epsg為其組織代碼。epsg維護這一标準是為了給石油和天然氣工業提供便利。該行業在資源勘探方面的地理空間分析研究碩果累累。最新的統計結果表明,該标準中包含超過5000個實體。

就在10年前,地圖投影還是地理空間分析領域的重點研究的問題。資料存儲昂貴,高速網際網路蹤迹難覓,雲計算根本就沒有。地理空間資料通常隻在研究不同領域的小團體之間交換。

當時的技術壁壘也意味着地理空間技術是高度區域化的。分析人員會選擇和他們感興趣的區域最比對的投影方式。使用不同投影方式的資料無法顯示在同一張地圖上,因為它們使用的地球模型不同。分析師在收到第三方提供的資料,将其和現有資料整合時,不得不先将其進行重投影處理,這個過程是冗長耗時的。大部分地理空間資料格式不支援存儲投影資訊。

這些資訊通常會存儲在一個xml或者文本格式的輔助檔案裡。由于分析師之間并不經常交換資料,是以很多人不會過多關注定義投影資訊。每個分析師的噩夢是遇到一份非常有價值的資料時卻丢失了投影資訊,這說明上述的資料是無用的。該檔案中的坐标系統隻是一堆數字,不能提供任何與投影相關的線索。大約有5000多種投影方法,猜都猜不出。

現在,現代軟體強大功能和網際網路的出現讓資料轉換更便捷了。幾乎所有的資料格式都添加了使用中繼資料定義投影資訊的支援,并且可以将這些資訊放在檔案頭部。技術的不斷進步使全球底圖可以支援多種常用的投影方式,例如谷歌地圖使用的谷歌墨卡托投影。這種投影方式也叫web墨卡托投影,epsg代碼是3857(以前的epsg代碼是900913)。地理空間資訊門戶項目如openstreetmap.org和nationalatlas.gov已經為世界上大部分通用的投影方法提供了統一的資料集。現代的地理空間分析軟體還能夠實時對資料重投影,省去了分析師預處理資料的麻煩。地圖投影和大地基準密切相關。大地基準是地球表面的一種模型,是用來比對地球中路徑特征的坐标系統。最常用的大地基準是wgs84,gps裝置中使用的就是它。

1.9.6 渲染

地理空間分析中激動人心的部分是可視化。因為地理空間分析過程是通過計算機完成的,是以了解地理空間資料如何展示到計算機螢幕上的過程是大有裨益的。

地理空間資料包括點、線以及由若幹點組成的多邊形。它們都是由(x,y)或者(x,y,z)等元組構成的。其中x代表地圖上水準方向的點,y代表豎直方向的點,z代表地形高程。在計算機制圖中,計算機螢幕是由x軸和y軸表示的。z軸并沒有用到,因為大部分圖形軟體api都把計算機螢幕當作二維平面。但是,随着桌面電腦的不斷發展,三維地圖也開始流行起來了。

另外一個重要因素是螢幕坐标系統和世界坐标系統的差異。存儲地理資料的坐标系統是覆寫整個地球的網格,并且是三維和圓形的。螢幕坐标系統,也叫像素坐标系統。反映的是網格像素組成的二維計算機螢幕。世界坐标系統中的x和y映射到像素坐标系統中的算法非常簡單,而且隻進行了簡單的比例縮放。然而,如果存在z坐标,那麼就需要執行更複雜的操作才能完成三維空間的坐标系統到二維平面的坐标系統的映射。這些轉換的計算成本高昂,并且如果沒有正确處理還會變得非常低效。

對于遙感資料來說,它的難題是檔案大小。即使一個中等規模衛星影像經過壓縮後沒有幾百也有幾十兆大小。圖檔壓縮包括無損壓縮和有損壓縮兩種方法可供選擇。無損壓縮通過技術手段能夠減小檔案體積而不丢棄任何資料。有損壓縮算法通過減少檔案的資料量減小檔案體積,同時避免圖檔内容發生顯著變化。渲染一張圖檔到螢幕上計算量是很大的。大部分遙感檔案格式都支援存儲多個低品質圖像,即所謂的概要或者影像金字塔,其目的就是為了在不同比例尺下更快的渲染圖檔。當圖像被縮小到一定比例以至于你無法看到圖檔細節時,系統會無縫切換到一張預處理過并且低品質的圖檔。

遙感的基本概念

大部分gis概念的描述也适用于栅格資料。但是,栅格資料也有一些特有的屬性。在前面的章節中,關于遙感的曆史,我們把注意力集中在了從太空平台上擷取地球影像。不過值得一提的是,栅格資料的來源非常豐富,包括地面雷達、雷射測距儀以及其他專門用于檢測氣體、輻射和其他地理環境中的能量物質的儀器。對于本書來說,我們将會把重點放在捕獲大量地球資料的遙感平台上。這些資料源包括地球影像系統,特定類型的高程資料,以及某些适用的天氣預報系統。

1.9.7 影像資料

栅格資料捕獲的内容就像廣場上的地磚。這意味着資料存儲在計算機上的方式是以若幹行和列的數組構成的。如果資料是多光譜的,資料集通常會包含多個相同大小的數組,它們通過地理空間的格式被引用到一塊,表達地球上某個單獨區域。這些不同的數組被稱為帶。任意數字的數組都可以作為影像顯示到計算機上。事實上,所有的計算機資料本質上都是數字。這一點對于地理空間分析影像資料尤為重要,因為經常會用到數學公式來處理它們。

對于遙感影像來說,每個像素都表示空間(地球上一個預定尺寸的位置)和反射系數,即光從地球反射到外太空該位置的比率。是以,每個像素都有一個地面尺寸和亮度。因為每個像素都是一個數字,我們可以使用數學方程比較圖像中不同頻帶的資料,并高亮顯示特定類别的對象。如果波長值超過了可見光譜,我們可以高亮顯示對肉眼不可見的特征。例如植物中的葉綠素可以使用特定的歸一化植被指數(normalized difference vegetation index,ndvi)公式進行明顯對比。

在處理遙感影像過程中,我們可以将這些資料轉化成直覺的資訊。使用ndvi公式,我們就能解決圖像中什麼樣的植物相對更健康這一問題。你還可以建立新的電子資訊,将其導入計算機程式輸出其他類型的資訊。

1.9.8 遙感和顔色

計算機螢幕顯示圖檔是通過對紅(r)、綠(g)、藍(b)3個顔色通道的變化組合來比對人類視力所能感覺的顔色。衛星和其他遙感影像裝置還能夠捕捉不可見光譜。在計算機上,波長不可見的光譜以可見光譜的形式顯示,是以我們能夠看到它們,我們稱之僞彩色影像。在遙感領域如紅外光,對水分的顯示非常明顯。這種現象的用途廣泛,如發生洪澇災害時,監測災區水域分布、堤壩隐蔽洩漏、房屋統計等。