天天看點

AI玩起浪漫,受傷的竟然是氣象台?

如果天氣預報說明天25%的天空被雲層覆寫,那麼你能判斷明天的天氣嗎?恐怕很難。或許這25%的雲會聚集在一起,帶來一場傾盆大雨,或許它們隻是天空中許多可愛的散碎雲朵,在陽光明媚的日子裡增加你的喜悅。要從雲層預測天氣,我們需要了解更多資訊。

AI玩起浪漫,受傷的竟然是氣象台?

雲層很大程度上影響着天氣

令人驚訝的是,目前最先進的天氣模型也隻能對雲做十分粗略的描述,比如我們剛剛提到的25%的雲量。原因是雲往往很小,天氣模型無法考慮到天空中每一小塊區域的情況。而如果把天空中的每一塊區域都考慮在内,那麼即使是最快的超級計算機也無法完成天氣預報所需的計算。即使近幾年計算能力急劇增加,也還不足以解決這個問題。

“一塊巨大的雲和許多非常小的雲之間有很大的差別,”巴斯大學的數學家迪瓦恩說,“這兩種情況将導緻天氣表現出巨大的差異,但目前使用的天氣預報模型沒有考慮到這一點。

然而,稍微換一個方向,我們就能看到希望。與其試圖加快計算速度,也許我們可以利用計算機的力量,通過學習大量已有的資料來完成複雜的任務。這就是機器學習,它是人工智能的一種形式。從線上購物到醫療保健,目前人工智能正在進入生活的各個領域。如果這個想法也适用于氣象學,那麼天氣預報将變得更加準确,同時需要的計算能力也會比目前天氣模型少。

傳統的天氣預報模式

天氣是地球大氣和海洋的運動、水分在大氣中的移動以及空氣壓力和溫度的變化共同作用的結果。大氣和海洋分别屬于氣體和液體,它們都屬于流體,而在氣象學裡,剛好有一組描述了流體運動的方程:納維-斯托克斯方程。

天氣預報背後的原理相對簡單。首先測量描述目前天氣的因素,例如溫度、空氣壓強和密度、風速以及空氣的濕度。然後,将這些資料提供給基于納維-斯托克斯方程建構的數學模型,這樣就可以在計算機上及時計算出天氣的變化。

然而,在實際操作中,有幾件事會使天氣預報變得棘手。首先,你不可能測量地球上每個點的溫度、壓力、濕度等。其次,你不能以無限的精度測量它們。著名的蝴蝶效應意味着,随着計算的進行,不可避免的一點微小誤差可能會變得非常大,進而産生一個偏差很大的預測。第三,由于納維-斯托克斯方程的複雜性,應用到天氣模型中需要大量的算力。

地球像素化

為了能夠進行預測,天氣模組化者們将地球及其大氣層劃分為一個網格,就像電視或電腦螢幕将圖像分成像素一樣。正如每個像素都被配置設定了一種顔色,每個網格框也隻為壓力、濕度、溫度等配置設定了一個數值——這個值是對單個網格框進行精準測量得到的,這樣就使得計算變得容易。之後我們可以使用內建預測等技術來減輕蝴蝶效應的影響。

天氣模型将地球及其大氣劃分為一個網格。圖檔:美國國家海洋和大氣管理局。

在目前最先進的天氣模型中,網格在水準方向上大約1.5公裡見方,在豎直方向上高大約300米:即使是最快的超級計算機也無法處理更高的分辨率。雲當然可以比這個尺寸小得多,它們可以在一個網格框内做各種奇妙的事情,許多别的過程也會在小于網格框的尺度内發生。

為了把這些過程考慮進來,天氣模型使用數學公式來估計,這些公式大緻描述了這些過程的實體特性。這種估計稱為參數化。

“參數化是模組化的一個步驟,它計算網格框内所發生情況的實體特性,然後與網格尺度相關聯,”巴斯大學數學家、天氣預報和機器學習專家克裡斯·巴德解釋說。單個網格框中被雲層覆寫的天空比例就是被這樣參數化的一個量。“除了雲之外,還有來自太陽的輻射、重力在大氣中引起的波動以及風吹過地球表面時所經曆的摩擦等參數,”巴德說。

AI能做什麼?

機器學習是指計算機算法學習如何發掘資料中的規律,然後充分利用這些規律進行實際應用。這裡有一個經典例子,是計算機學習從狗的圖檔中分辨出貓的圖檔。要教機器學習算法做到這一點,首先要給它輸入大量貓和狗的圖檔,并告訴它每張圖檔的正确答案——到底是貓還是狗。

在一個看似神奇但高效的數學過程中,算法仔細分析圖檔,調整内部參數,直到在訓練集中獲得非常高的正确率。然後你可以給它新的貓狗圖檔,它就能高度準确地分辨出圖檔上的動物。

當涉及到天氣預報時,我們希望機器學習算法可以通過檢視大量現實生活中的天氣來學習如何從與網格框相關的數字中确定網格框内所發生事情的一些細節。如果可以的話,這些算法可以納入天氣模型,取代現有的參數化算法,并允許模型包含有關子網格過程的更詳細資訊——包括有關雲的行為群組織的更多詳細資訊。

試用AI

巴德和迪瓦恩都是一個名為“深度學習中的數學”的研究組的成員,他們主要探索機器學習的一系列潛在應用以及它背後的數學。他們指導研究所學生科沃德與英國氣象局合作了一個項目,内容是測試機器學習能否提供關于雲層的更多資訊。

這些卷雲的總表面積大于相同體積的雲球的表面積。圖檔:法馬丁

對于這樣一個測試,我們首先要做的是确定想要機器算法學習關于雲的哪些資訊。科沃德基于幾何學的結果給出了一個答案:在雲量相同的情況下,雲全部聚集在一起時整個雲團的表面積往往比它被分成許多小雲時要小。

是以,整個雲團的表面積,也稱為雲周界,是一個很好的名額,來反映網格框中有什麼樣的雲——大積雲或纖細的卷雲。它也是一個有用的參數,用于改進其他參數化過程和算法,例如預測輻射穿過雲層傳輸的算法。

問題是機器學習算法能否根據配置設定給整個網格框的數字來估計單個網格框内的雲周界。“這是科沃德項目的目标:根據一系列環境因素對雲周界的估計進行機器學習。” 迪瓦恩說。

為了訓練算法,科沃德使用了在美國俄克拉荷馬州記錄的雲的資料集。“他們在的空間内設定了一堆攝像頭,“迪瓦恩解釋道,“錄影機可以在一米大小的網格尺度上讀取是否有雲存在。”在三年的時間裡,每20秒就會記錄一次雲層,利用這些資料,機器學習算法産生了科沃德所說的“對雲生命周期的完全獨特的見解”。

科沃德利用這些資料來訓練兩種機器學習算法。對它們進行訓練之後,他将算法預測的雲周界與錄影機記錄下的雲周界進行了比較。

兩種算法中較好的一個誤差為16%。雖然不是零,但也不是很大。事實上,在不使用機器學習的情況下,最好的參數化雲周界的方法也有接近24%的誤差。是以,在這種情況下,機器學習的精度比非機器學習高出三分之一以上。

概念的證明

科沃德的項目是測試機器學習能否用于天氣預報的一系列初步嘗試之一。“機器學習對于該領域的人們來說是一種非常新的方法,” 迪瓦恩說,“我們現在處于起步階段,大部分内容都是實驗性的,人們正在嘗試不同的東西,試圖提出新技術,看看它們的表現如何。”

人們希望機器學習最終不僅可以計算雲層,也可以計算天氣模型中的其他現象。如果這個方法成功了,人工智能最終應用到天氣預報的APP中,到時候你會知道這個好消息的。

繼續閱讀