天天看點

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

作者:HyperAI超神經

《尚書·堯典》中記載:「湯湯洪水方割,蕩蕩懷山襄陵,浩浩滔天,下民其咨。」堯舜時代,洪水泛濫讓百姓苦不堪言,堯舜決定找人治理洪水,鲧最初受命但未成功,後大禹繼承父業再度治水,于是就有了「大禹治水十三載,三過家門而不入」的傳說。

2023 年 7 月,一場由台風「杜蘇芮」引發的罕見特大暴雨襲擊北京市,大清河流域出現破紀錄的洪峰流量。據人民網報道,本次洪澇災害造成北京超 129 萬人受災,房屋倒塌超 5.9 萬間、嚴重損壞超 14.7 萬間,農作物受災面積達 22.5 萬多畝。

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

圖源:中國新聞社

從古至今,人類在面對洪水這樣的自然災害時,往往處于弱勢地位。谷歌研究科學家 Grey Nearing 曾在其論文中表明,一個有效的洪水預報系統能夠将相關死亡人數減少 43%,經濟損失降低 35%-50%。可見,建立洪水預報系統是人類應對洪水災害的一種重要手段。

目前的全球洪水預報系統大多依賴沿河設立的觀測站,受限于部署成本,低收入和中等收入國家的流量計安裝量往往較低,導緻該類國家在洪災來臨時難以提前做好應對措施。據 World Bank 估計,若将開發中國家的洪水預報系統提升至發達國家水準,每年将有望拯救約 2.3 萬人的生命。針對無測站流域建立洪水預報系統已迫在眉睫。

幸運的是,随着科技的發展,人工智能 (AI) 在洪水領域的應用為無測站流域的洪水防禦帶來了希望。來自 Google Research 的 Grey Nearing 及其團隊開發了一個基于機器學習的河流預報模型 (river forecast model),該模型能夠提前 5 天實作對洪水的可靠預測,在對 5 年一遇的洪水事件進行預測時,性能優于或相當于目前預測 1 年一遇的洪水事件,系統可覆寫 80 多個國家。

研究亮點:

* 河流預報模型的預測能力優于目前全球最先進洪水預報系統 GloFAS

* 為未測量流域的洪水預警提供更好的支援

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

論文位址:

https://www.nature.com/articles/s41586-024-07145-1

資料集下載下傳位址:

https://hyper.ai/datasets/30647

關注公衆号,背景回複「洪水預報系統」擷取完整 PDF

資料集:來自 5,680 個流域

該研究的完整資料集包括來自 5,680 個流域的模型輸入和(徑流)目标值,研究人員基于這 5,680 個流量監測站進行模型的訓練和測試。

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

用于訓練模型的5,680徑流監測站位置

本研究使用 3 種類型的公開資料作為輸入,主要來源于政府:

* 代表地理和地球實體變量的靜态流域資料:來自 HydroATLAS project,包括長期氣候名額(降水、溫度、雪覆寫率)、土地覆寫以及人為屬性等。

* 曆史氣象時間序列資料:來自 NASA IMERG, NOAA CPC Global Unified Gauge-Based Analysis of Daily Precipitation 和 ECMWF ERA5-land reanalysis。變量包括每日總降水量、氣溫、熱輻射、降雪量和地表壓力等。

* 七天預報範圍内預測氣象的時間序列資料:這些資料來自 ECMWF HRES atmospheric model,氣象變量與上述相同。

模型架構:基于 LSTM 建構河流預報模型

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

基于 LSTM 的河流預報模型架構

該研究依次利用兩個應用的長短期記憶網絡 (LSTM) 建構河流預報模型,其核心是編碼器-解碼器機制 (encoder–decoder model)。其中 Hindcast LSTM 接收曆史天氣資料,Forecast LSTM 接收預報天氣資料,模型的輸出是每個預測時間步的機率分布參數,它代表了對特定河流在特定時間容積流量的機率預測。

此外,研究人員在 50,000 個小批量 (minibatches) 上對該模型進行訓練,所有輸入資料預先進行了标準化處理。為增強模型的學習能力,研究人員為編碼器 (encoder) 和解碼器 (decoder) LSTM 設定了單元狀态 (cell state) 為 256 的隐藏層節點數 (hidden size),以及 linear-cell-state transfer network 和 nonlinear hidden-state transfer network。

模型優化:交叉驗證減少預測誤差

研究人員采用交叉驗證在 5,680 個流量計上訓練并在樣本外測試河流預報模型,確定模型的泛化能力得到有效評估,提高預測可靠性。

首先,在時間次元上,設計交叉驗證折疊,任何監測站在一年内的測試資料都不得與其所使用的訓練資料重疊。在空間次元上,采用 k 折交叉驗證 (k = 10),将資料在空間次元上均勻分割。重複執行這兩個交叉驗證過程,避免訓練和測試之間的資料洩露。

其次,為進一步考察模型在不同地理區域和環境條件下的表現,研究人員還進行了更多類型的交叉驗證明驗,包括但不限于:按照各大洲 (k = 6)、不同氣候帶 (k = 13) 、水文分離的流域群體 (k = 8) 等進行非随機空間分割。

* k 折交叉驗證:将資料集分成 k 個子集,其中 1 個子集用于驗證,剩餘 k-1 個子集用于訓練。重複 k 次交叉驗證,每個子集驗證 1 次,平均 k 次的結果得到模型的最終評估。

實驗結論:性能優于全球現有最先進的洪水預報系統

為了評估洪水事件預測的可靠性,研究人員将河流預報模型與全球現有最先進的洪水預報系統 GloFAS (Global Flood Awareness System) 進行對比分析。

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

河流預報模型與GloFAS模型在即時預測下

預測2年重制期事件的F1 scores得分差異

* 紅色表示差異值在 -0.2-0 之間

* 綠色表示差異值在 0-0.2 之間

第一,研究人員分析了 1984 年-2021 年間,河流預報模型與 GloFAS 模型在即時預測下,預測 2 年重制期事件的 F1 scores 得分差異分布。

結果表明,河流預報模型在 70% 監測站(共計 3,673 個)上的表現優于 GloFAS 模型。

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

即時預測下

不同重制期事件的精确度和召回率分布情況

* 藍色虛線為參照基準線

* N 為監測站的數量

第二,研究人員分析了即時預測下,不同重制期事件的精确度和召回率分布情況。

結果表明,河流預報模型在預測所有的重制期事件中表現出更高的可靠性。對于預測極端事件的精确度,河流預報模型在 5 年重制期上與 GloFAS 在 1 年重制期上無顯著差異,而召回率高于 GloFAS。這說明,河流預報模型預測 5 年重制期事件的準确性優于或相當于 GloFAS 預測 1 年重制期事件的準确性,即其預測更長重制期洪水事件的可靠性優于目前最先進模型預測 1 年重制期洪水事件。

* 重制期:某個洪峰流量是多少年一遇,其中的多少年就是重制期。重制期越長,洪水的量級越大,重制期越短,洪水就越小。

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

提前0-7天預測時,不同重制期事件的F1 scores分布 藍色虛線為參照基準線

第三,研究人員分析了提前 0-7 天預測時,不同重制期事件的 F1 scores 分布。

結果表明,對于預測 1 年 (a)、2 年 (b)、5 年 (c) 和 10 年 (d) 重制期事件,河流預報模型在最多提前 5 天的情況下,其 F1 scores 要麼高于 GloFAS 的即時預測,要麼無顯著差異。這說明,河流預報模型在提前 5 天的時間内,洪水預報能力優于或相當 GloFAS。

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

不同地理位置和重制期的 F1 scores

第四,研究人員分析了 F1 scores 在預測不同地理位置和重制期事件時的分布情況。

結果表明,這兩種模型在不同地理位置的可靠性存在顯著差異。此外,在預測 1 年 (a)、2 年 (b)、5 年 (c) 和 10 年 (d) 重制期事件中,河流預報模型在不同地理位置上的 F1 scores 與 GloFAS 相比均較高或無顯著差異。

從歐洲EFAS到中國新安江模型,AI 已成智能防線

其實早在 2021 年,谷歌在「Inventors@Google」活動上展示其 AI 技術的研究成果時,便已經提到了基于機器學習的洪水預報系統 Google Flood Hub,當時該系統主要适用于印度,是通過可視化的方式讓當地人民了解洪水情況。經過三年的發展,谷歌的最新洪水預報系統已經可以擴充到其他無測站流域地區,覆寫超過 80 個國家。

與之類似的還有歐洲洪水感覺系統 (EFAS),該系統利用先進的氣象預報和水文學模型,結合機器學習算法,至少提前十天對整個歐洲進行可靠的洪水預測,并向成員國的國家及地方洪水中心發送正确的早期預警。

此外,作為洪水頻發的國家之一,大陸約有 2/3 的國土存在不同程度的洪水風險。據統計,1991 年至 2020 年間,大陸因洪澇災害導緻的年均死亡或失蹤人口超 2 千,累計死亡人數超 6 萬,年均直接經濟損失約 1,604 億元。

擊敗全球 No.1 系統、覆寫 80+ 國家,谷歌洪水預測模型再登 Nature

圖源:中國地圖

面對洪水危害,大陸自主研發的新安江模型,基于長期實踐積累和對水文規律的深入學習,将全流域劃分為多個單元子流域,并考慮地形、土壤、植被等因素對水文過程的影響,提供準确的水文預測結果,被廣泛應用于防洪減災等。

事實上,人類從未停止探索更加有效的洪水防禦措施,盡管無法從根本上消除洪災,但通過先進的洪水預報系統,提前預知災害并采取措施,可以很大限度減少洪災對人類社會的負面影響。如今,基于 AI 技術建構的洪水預報系統已不再局限于某個特定區域,或許也将在未來覆寫全球,保護更多市民免于洪水危害。

參考資料:

1.http://bj.people.com.cn/n2/2023/0809/c14540-40525241.html

2.https://www.sohu.com/a/766008856_473283

3. https://www.sohu.com/a/745381603_121687414

4.https://european-flood.emergency.copernicus.eu/en/european-flood-awareness-system-efas

5.https://developer.baidu.com/article/details/3096974

6.https://blog.research.google/2024/03/using-ai-to-expand-global-access-to.html

7.https://m.jiemian.com/article/6809946.html

繼續閱讀