為推進 AI4S 的普适化,降低學術機構科研成果的傳播壁壘,為更多行業學者、科技愛好者及産業機關提供交流平台,HyperAI超神經策劃了「Meet AI4S」系列直播欄目,邀請深耕 AI for Science 領域的科研人員或相關機關,以視訊的形式分享研究成果、方法思路。
在「Meet AI4S」系列直播第一期中,我們有幸邀請到了浙江大學遙感與地理資訊系統博士生丁佳樂,他所在的浙江省資源與環境資訊系統重點實驗室,面向數字地球和地理資訊系統、遙感和全球定位系統等國家高新科技領域,已經釋出了多項高價值研究成果。
本次分享,丁佳樂博士以「神經網絡為房價的空間異質性提供新解釋」為題,分享了他的最新研究成果。該研究将一種由神經網絡優化的空間鄰近性度量 (OSP) 與地理神經網絡權重回歸方法進一步結合,建構了 osp-GNNWR 模型,通過解算因變量與自變量的空間非平穩回歸關系實作神經網絡的訓練,能更準确地描述複雜的空間過程和地理現象。
點選檢視完整直播回放 ⬇️
https://www.bilibili.com/video/BV14W42197on/
HyperAI超神經在不違原意的前提下,對丁佳樂博士的本次深度分享進行了整理彙總。
從模型可解釋性出發,推動科學未來發展
身為一個地理科學的探索者,如果我們推出的模型隻能簡單預測房價,那這樣的成果在我看來是無趣的。我們追求的是,借助這些模型輸出的一系列随空間位置而變化的回歸系數,來對地理過程或者地理模式做出合理的科學解釋,這樣的研究才更具有前瞻性和實用性。正是基于這樣的願景,我今天選擇了「神經網絡為房價的空間異質性提供新的解釋」這一主題進行分享。
前段時間,我們團隊在地理資訊科學領域知名期刊 International Journal of Geographical Information Science 上發表了題為「A neural network model to optimize the measure of spatial proximity in geographically weighted regression approach: a case study on house price in Wuhan」的研究論文。
論文位址:
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771
在該研究中,我們引入了神經網絡方法對觀測點間的多種空間鄰近性度量 (如歐式距離、旅行時間等) 進行非線性耦合,得到優化的空間鄰近性度量 (OSP),進而提升模型對房價預測的準确性。
為解決抽象的「空間鄰近性」無法構造損失函數、神經網絡難以訓練等問題,我們還将 OSP 與地理神經網絡權重回歸方法 (Geographically Neural Network Weighted Regression, GNNWR) 進一步結合,建構了 osp-GNNWR 模型,通過解算因變量與自變量的空間非平穩回歸關系實作神經網絡的訓練。最終,該模型被證明具有更好的全局性能,能更準确地描述複雜的空間過程和地理現象。
接下來,我将以該成果為案例,向大家分享神經網絡為房價的空間異質性提供新解釋的具體流程。
研究背景:雙重挑戰下的科研突破
「空間異質性」是造成房價波動的關鍵因素,但單一的距離度量方式在捕捉複雜地理環境中房價的「空間異質性」時捉襟見肘;傳統地理權重回歸模型 (GWR) 在衡量空間鄰近性時也面臨挑戰。正是由于這些因素,我們選擇開展本項研究。
空間異質性:不同空間的差異性表達
首先,我先向大家介紹一下空間異質性和地理權重回歸的背景。
普通線性回歸模型 OLS 是确定變量回歸關系最常用且最基礎的統計方法,使用一個非常簡潔的公式來描述因變量和多個自變量的關系,如下圖所示,y 等于一個截距項,加上若幹個回歸系數和自變量的乘積。
當我們把 OLS 等統計學方法應用在地理學時,往往需要考慮到一些地理問題固有的空間特征,于是就産生了空間統計和時空模組化的相關研究。
普通線性回歸模型會假定:回歸系數和樣本資料的空間位置和時間位置無關,計算得到的自變量系數是在研究區域的平均水準。
但是,現實地理過程中的回歸關系會在不同的空間位置上會表現出差異性。以房價為例,同樣戶型的一個房屋,在市中心和郊區的主要影響因素是不同的,是以它們的回歸關系也有不同的形式,我們把這種特征稱為空間異質性(空間非平穩性)。
空間異質性是地理要素關系描述的固有特征,是地理要素關系或結構在不同時空位置所具有的差異性表達。它意味着資料在不同空間位置的生成機制存在差異,會表現為相應的回歸模型形式、或者參數會随空間的位置進行變化。
地理權重回歸:通過核函數實作從空間鄰近性到權重的轉換
地理權重回歸 (GWR) 是由美國 A. Stewart Fotheringham 院士提出的一種對空間異質過程的模組化方法。
通過下圖的公式可以看到,雖然 GWR 的整體形式還是線性回歸關系,但它的截距項和回歸系數變成了與坐标位置 (ui, vi) 的映射關系。也就是說,在不同的坐标位置上,它的回歸關系是不同的,整個公式反映出來的回歸關系也會随着空間位置有不同的改變。
GWR 的回歸系數很難确定,現在最常用的解算方法類似 OLS,即用一個權重的最小二乘法進行解算。
在下圖的公式中,對角權重矩陣 W 用于對樣本進行權重,可反映自變量之間的空間關聯性。具體而言,樣本之間的權重是根據樣本的空間鄰近性解算的,空間上越臨近的兩個點會有越強的關聯性,我們就會給它配置設定更大的權重,并以此來進行模組化。
如何實作從空間鄰近性到權重的轉換?GWR 是通過一個核函數,比如說高斯核函數、雙平方核函數等,來把空間鄰近性轉化到一個權重,進而實作權重方程構造。不過,這種方法存在一定的局限性。
過去,空間異質過程模組化的關鍵是以時空位置鄰近性 (Proximity) 度量為基礎,進行時空權重核函數的設計與建構,進而利用局部權重回歸理論建立非平穩性目标解算函數,通過模型評價準則的最優求解,實作時空非平穩關系的地理模組化。
現有研究對這種方法的改進也多側重于細化核函數的使用範疇,進而建立含有多帶寬參數的混合核模型,卻忽略了對核函數本身結構的改進與發展:比如,以單參數解析為核心的現有核函數結構體系較為簡單,難以充分估計時空鄰近性對時空權重的複雜作用,導緻無法精準解算複雜地理關系的時空非平穩特性。
随着近年大資料的不斷發展,充分發揮大資料環境下的海量資料優勢,高效利用深度神經網絡的非線性拟合能力,使用神經網絡來解釋空間異質性,是解決目前時空關系模組化方法發展困境的可行方案。
如何利用神經網絡來解釋空間異質性?
融合 SWNN,GNNWR 具有更強的泛化能力
之前,我們曾提出過一個地理神經網絡權重回歸模型 GNNWR,該模型用一個深度神經網絡(空間權重神經網絡 SWNN)來為每個位置上的樣本賦予一系列空間權重。
GNNWR 論文位址:
https://doi.org/10.1080/13658816.2019.1707834
具體而言,SWNN 以每個樣本點到其他樣本點的距離向量為輸入,輸出該位置上的一系列的空間權重,也就是權重矩陣 W,進而實作對空間異質性的表達。
為了在較小樣本上有強的泛化能力,也為了模型的訓練能夠更快收斂,我們在 GNNWR 方法中,把 SWNN 輸出的權重和 OLS 先驗得到全局回歸系數相乘結合,形成了空間異質性的回歸系數。
通過上圖回歸方程可得,該回歸方程由自變量、全局回歸系數、觀測點上空間非平穩的調整參數組成。基于此,我們建立了一種基于神經網絡的空間回歸模型,進而解算空間非平穩過程。
用神經網絡優化空間鄰近性度量
前面提到,SWNN 以每個樣本點到其他樣本點的距離向量為輸入。在這個過程中,我們一般會采用歐式距離,比如用空間中兩點連線的長度作為距離的度量,這是最直覺也是最容易了解的距離表達方法。
然而在城市環境中,歐式距離受到自然和交通條件的影響,難以反應實際的空間鄰近性。比如要去對岸的錢塘江,如果不能走公路大橋的話,就需要繞很大一圈才能過去。在這種情況下,兩點之間的直線距離雖然很近,但它們在實際空間上是相隔非常遠的,歐式距離并不能充分地反映它們的空間鄰近性。
在現實世界中,受到自然景觀和人造地物的限制,人員和物資的交流往往借助于道路交通網絡,路網距離 (Road Network Distance, ND) 和旅行時間 (Travel Duration, TD) 也是一種适當的空間鄰近性度量方法。
然而,由于交通規則限制以及道路通行能力限制,同樣長度的路網距離、同樣的旅行時間時長所代表的空間鄰近性并不相同。比如,同樣駕車 13 分鐘,校園内限速,隻能走很短一段距離,如果在高架橋上,就能走很遠的距離。
是以說,如果使用單一的空間鄰近度量,會存在一定的局限性。是以,我們嘗試建立一種距離融合函數,把多種距離路徑成本耦合在一起,來優化地去表征空間鄰近性。
根據上述方程,我們把兩點間的若幹個「距離」耦合,形成一個更優、更确切表征兩點之間真實的空間鄰近性值。
但這個方程也存在一個問題,fsp 是一個需要統一多個不同量綱下的距離表征。比如,旅行時間和歐式距離的機關本身就是不一樣的,數量級可能也會有較大差異,僅僅依靠普通的函數并不能充分地實作耦合效果。對此,我們構造了一個空間鄰近性的神經網絡 SPNN,把這些距離映射到統一的空間鄰近度量中。
随後,通過訓練這個神經網絡,就能把特定函數的計算轉化成一個資料驅動的拟合過程,這就是我們用神經網絡優化空間鄰近性的想法。
連接配接兩個神經網絡,形成 osp-GNNWR
由于空間鄰近性是一個抽象概念,沒有真值,比如說給定 a 點和 b 點,就不能說 a、 b 之間的空間鄰近性是一個确定的值 x,這就導緻 SPNN 的損失函數無法定義,也就無法訓練。
我們的解決方案是,把 SPNN 的輸出直接作為 GNNWR 的距離輸入,将兩個神經網連接配接起來,形成統一的整體,我們将其稱作優化空間鄰近性度量的地理網絡權重回歸 (osp-GNNWR)。
根據這個模型,我們就可以通過樣本估計值的誤差直接訓練整個網絡,将最後因變量 y 的拟合值和增值的誤差作為損失函數來直接來訓練網絡。整個網絡被訓練完畢,前面 SPNN 也同時被訓練完成,進而解決了 SPNN 的求解問題,完成了回歸任務。
以武漢房價為例,osp-GNNWR 為房價的空間異質性提供新解釋
以武漢房價為例,我們選用 968 個獨立的武漢市樓盤二手房成交資料,按 85:15 的比例劃分為訓練集和測試集。并在這些資料中,用房價模組化中常用的特征價格法選取了 3 大類 10 個自變量,包括這些房屋的基本資訊、周邊配套設施、交通便利性等。在此基礎上,我們選擇歐式距離和旅行時間作為 SPNN 的輸入距離來建構 osp-GNNWR 模型。
對于優化後的空間鄰近性度量,據下圖所示,圖中每個點的顔色代表拟合結果的殘差內插補點;橙色代表 osp-GNNWR 的拟合效果比原本的 GNNWR 模型效果更好;線條代表得到的優化空間鄰近性和歐式距離之間的差異。
圖 a 可以看到,在城市邊緣區域,OSP 與歐式距離的差異較大,且由于受路網結構影響,表現出一定的方向差異性;特别地,我們在紅色箭頭方向上可以發現一個較低的內插補點,而這主要是由于該方向與武漢市二環快速路吻合,建構 OSP 所使用的歐式距離和旅行時間本身差異較小導緻的。
圖 b 可以看到,在城區中心地帶,由于交通設施完善,無論往哪個方向走,不同方向的空間鄰近性都是較為均衡的,是以 osp 與歐氏距離的內插補點表現出較規則的同心圓狀分布。
通過這些 OSP 和歐式距離的差異特征,我們也得以證明了優化空間鄰近性度量的實際意義。
基于房價的模組化結果,我們可以進一步讨論回歸系數的空間異質性,比如研究大學距離對房價影響。
如下圖所示,武漢市洪山區中心的 UA 參數明顯高于其他地區,這表明大學對該地區的房價産生了積極影響,也就是說越靠近教育機構,房價越上漲。此外,這些大學和科研機構也帶來了更好的宜居環境,創造了更繁榮的租賃市場。
小模型也有大意義
以上研究我們并沒有用大模型,雖然現在非常流行大的神經網絡模型、深度網絡模型等,但小模型仍然存在它的實際意義。在沒有那麼多算力、豐富資料集樣本的情況下,設計一個小而美的模型,對于解決某些問題也會有很大的幫助。
最後是一些參考文獻,大家有興趣的話也可以去了解一下。
召集令
HyperAI超神經 (hyper.ai) 是中國最⼤的資料科學領域搜尋引擎,長期聚焦 AI for Science 最新研究成果,解讀了百餘篇頂級期刊學術論文。
歡迎正在圍繞 AI for Science 開展研究探索的課題組、研究團隊與我們聯系,分享最新研究成果、投稿深度解讀文章、參與 Meet AI4S 直播欄目,更多推廣 AI4S 的方式等待我們共同探索!
添加微信:神經星星 (微信号:Hyperai01)