天天看點

看個世界杯,别墅沒了?因為你的算法用錯了

作者:博物

在每屆世界杯足球賽開幕之際,都會有各路大咖為大力神杯的最終歸屬“算上一卦”,其中也少不了科學家手中的數學模型。“一千個觀衆中就有一千個哈姆萊特”,十個不同模型就可能預測出十個不同冠軍,像巴西隊,阿根廷隊,法國隊都是被預測的奪冠熱門。

對于2022年卡達世界杯,英國一位流行病學統計研究者Matthew Penn卻更看好比利時隊[1,2],要知道比利時隊在世界杯曆史上還從來沒進過決賽。但這哥們絕不是在“瞎說”,一來人家有自己基于資料的機率模型,二來這個模型曾經在2020年歐洲杯的預測中大放異彩,當時準确地預測了意大利和英格蘭會分别是冠亞軍,并且預測對了八強球隊中的六個。

看個世界杯,别墅沒了?因為你的算法用錯了

圖1:比利時(紅色)在 2018 年世界杯四分之一決賽中擊敗巴西

圖源:Кирилл Венедиктов/維基共享資源

在11月15日,Nature雜志慕名采訪了這位預測大神,并公布了他使用同一模型預測的本屆世界杯結果,各隊奪冠的可能性大小如下:

球隊 奪冠機率 (%)
1. 比利時 13.88
2. 巴西 13.51
3. 法國 12.11
4. 阿根廷 11.52
5. 荷蘭 9.65
6. 德國 7.24
7. 西班牙 6.37
8. 瑞士 5.29
9. 葡萄牙 3.78
10. 烏拉圭 3.36
11. 丹麥 3.17
12. 英格蘭 2.56
13. 波蘭 2.33
14. 克羅地亞 1.46
15. 墨西哥 0.67

那麼這些歐洲杯和世界杯的預測結果是怎麼獲得的呢?簡單說是來自于每場比賽的擲骰子,卻又不是簡單的擲骰子,而是一種泊松機率分布。

我們投擲一枚普通骰子,會得到1點到6點中的任意一個,并且六種結果的可能性是相等的,稱為均勻機率分布。而對于泊松機率分布,我們考慮這樣一種情況:假設街邊有一家生意并不怎麼好的小店,每天經營10個小時,平均每天可以來30個顧客,那麼平均每小時就隻有3個顧客,還假設顧客都是随機選時間來的,并沒有“客流高峰”,如果任意挑選其中營業的一個小時,來的顧客人數一定是3個嗎?顯然也不一定,這次碰巧可能一個人也沒來,下次碰巧可能一下子來了十幾個人。而法國數學家泊松給出了下面這一公式:

看個世界杯,别墅沒了?因為你的算法用錯了

λ=3表示了平均值,P則表示了這一小時的時間段來了k個人的機率大小,e是自然常數。在泊松眼中,這家小店一小時内恰好來了3位顧客(平均水準)可能性是22.4%,而一個人沒來的機率是4.98%,來了很多人的機率同樣存在,但可能性很小,比如來了10個人的機率是0.08%,其它人數的機率也可以一一算出,像下圖中所顯示的那樣。

看個世界杯,别墅沒了?因為你的算法用錯了

圖2:平均值為3的泊松機率分布

圖源:本文作者自制

在現實中,泊松機率分布其實無處不在,很多真實資料都和這一分布驚人的相似。其中包括了核物質每秒放射性衰變的次數,地震等自然災害發生的次數,公共場所排隊的人數,機器出現的故障數,每年飛機墜毀次數,某地區患病的人數,城市各區域犯罪案件發生數量,甚至是普法戰争期間普魯士士兵被馬踢死的人數等等。

而在Matthew Penn的模型中,泊松機率分布用來表示了每場足球比賽中某一方的進球個數。一場比賽的勝負和比分自然同時取決于雙方的實力和運氣,确定性之中又充滿了不确定性。

為了衡量各球隊實力,模型中給每一支球隊分别設定了“攻擊力”和“防守脆弱性”指數,前者數值越高越容易進球,後者數值越高表示越容易丢球,防守力越弱。對此,各種網遊桌遊的玩家一定不會陌生,而在更遙遠的時代,友善面裡贈送的《水浒傳》英雄卡上也都标記了每位好漢的攻擊力和防禦力。很顯然,一等球隊攻擊力強,防守脆弱性低,二等球隊攻擊力弱,防守脆弱性低,或者反之,最差的一類球隊攻擊力弱,防守脆弱性高。

看個世界杯,别墅沒了?因為你的算法用錯了

圖3:幹脆面袋裡贈送的《水浒傳》英雄卡

圖源:趙陽(拍攝)/ Light科普坊

如果球隊A和球隊B比賽,按照“最合理最應該”的發揮,A隊期待的進球數是A的攻擊力乘以B的防守脆弱性,B隊期待的進球數是B的攻擊力乘以A的防守脆弱性。假設說A隊攻擊力是12,防守脆弱性是0.1,B隊攻擊力是6,防守脆弱性是0.2,兩隊的“正常”比分是2.4:0.6, 也就是約為2:1。但足球是圓的,我們隻能認為2:1是最有可能比分,還有其它各種可能性,于是就将A隊的進球數的不确定性看作一個以2.4為平均值的泊松機率分布,B隊的看作是一個以0.6為平均值的泊松機率分布,各種可能比分的機率大小取決于兩個進球數機率值的乘積。

當然一個最關鍵的問題還沒有說,每個球隊的攻擊力和防守脆弱性的值大小到底怎麼确定呢?答案是根據最近幾年來各隊之間的曆史戰績,不斷調整兩個數值,使得預測的比分機率分布與實際記錄的統計分布盡可能吻合。這樣,在世界杯上任何兩支球隊之間交手時,各種比分出現的可能性都已經事先可以大緻預測出來,模拟整個賽程,最後确定世界杯各隊的奪冠機率也就成為了可能。

泊松機率分布在光學領域也是個“常客”,不過更是個經常制造麻煩的“刺頭”。機率的不确定性給足球比賽帶來的是驚喜,懸念和刺激,給光學成像帶來的更多是帶來難以忍受的搗亂噪聲信号。

一束光可以看作是由很多個微小光子組成的,均勻照亮一張白紙後,看似紙上各處強度都很一緻,但實際上紙的每個位置反射的光子數量會各不相同,而光子數量的多少也對應着光照明暗的差異。即使同一位置,不同時刻反射的光子數量也會不斷有漲落起伏,都遵循着泊松機率分布。

對于相機來說,每次落到傳感器上的光子數分布同樣具有泊松機率的不确定性,不可避免引入了散粒噪聲[3](圖4左),并且幾乎無論怎樣完善地設計一款相機,都無法直接去除這種噪聲。根據泊松機率分布公式,光子數相比于平均數量上下起伏的波動程度大小會随着光子數平均值的平方根增大而增大,但光子數平均值正比于想要接收信号的大小,是以當光強度變大(光子數增加)時,雖然散粒噪聲在變大,信号與噪聲的比例(信噪比)卻也會變大,最後看到的圖像整體還是會更清晰。

看個世界杯,别墅沒了?因為你的算法用錯了

圖4:熒光顯微鏡所觀測的圖像中散粒噪聲(左)及人工智能算法處理後結果(右)[4]

圖源:Nature Biotechnology (2022): 1-11.

然而在很多應用中,增加信号光的光子數或者強度是徒勞的,比如在戶外使用無人自動駕駛汽車的雷射雷達時,有時無論怎樣增加雷射雷達的光信号強度,比起太陽光都是“小巫見大巫”,此時去除噪聲的一個辦法是對沒有任何目标物體的空白場景記錄一次信号,作為背景噪聲,之後每次記錄時,都去掉這一靜止不變的背景噪聲。可是面對太陽光這一本身強度很大,又在以泊松機率分布不斷動态變化的幹擾信号,這一招也不靈驗了。

而在使用X光的CT醫學成像中,為了提升信噪比,加強X光照射強度也不可行,因為過量的X光劑量對人體是有害的。而即使在可見光的情況下,一些活細胞顯微鏡觀測中,過亮的光照也足以殺死細胞,或者使細胞功能失常[4]。

2022年的諾貝爾實體學獎使得量子資訊領域再次備受全球關注,其中相關的技術之一的量子保密通信可以提供理論上非常強的密鑰安全性,但實際中需要滿足的條件是擁有每次隻生成單個光子的光源[5],“一個也不能多,一個也不能少”,可實際中往往發射的一個雷射脈沖中包含的光子數量本身也是泊松機率分布的,如果将平均值設為0.1個,有不少時候光源并沒有發出光子,還會有少量時候發出兩個或者更多個光子,這會使得量子通信系統沒有理想中的那麼高效和安全。

不過辦法總比困難多,就像從混亂的進球數可能性中尋找到冠軍球隊的蛛絲馬迹一樣,面對神出鬼沒的泊松機率分布噪聲,研究者通過深度學習人工智能算法可以将拍到的照片中噪聲完美去除,做到完好無缺的修複(圖4右)。無論預測比賽比分,還是去除圖檔噪聲,都離不開大資料作為參考,随機性的迷霧被異曲同工地層層撥開。

本文封面圖由Light科普坊提供

參考資料:

[1]Penn, Matthew J., and Christl A. Donnelly. "Analysis of a double Poisson model for predicting football results in Euro 2020." Plos one17.5 (2022): e0268511.

[2]D. Adam, “Science and the World Cup: how big data is transforming football,” Nature 611, 444-446 (2022)

[3]https://en.wikipedia.org/wiki/Shot_noise

[4] Li, Xinyang, et al. "Real-time denoising enables high-sensitivity fluorescence time-lapse imaging beyond the shot-noise limit." Nature Biotechnology(2022): 1-11.

[5]Y. Hu, X. Peng, T. Li and H. Guo, “On the Poisson approximation to photon distribution for faint lasers,” Physics Letters A367(3), 173-176 (2007).

本文經授權轉載釋出撰稿 | 焦述銘(鵬城實驗室助理研究員,香港城市大學電子工程博士)

審稿專家 | 李炜(中科院長春光機所)

微信編輯 | 阿什麼爽

繼續閱讀