天天看點

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。
「跟我一起機器學習系列文章将首發于公衆号:月來客棧,歡迎搜尋關注!」
「神說,要有正态分布,就有了正态分布。」 「神看正态分布是好的,就讓随機誤差服從了正态分布。」 「— 創世紀—數理統計」

「一個問題的出現」

故事發生的時間是 18 世紀中到 19 世紀初。17、18 世紀是科學發展的黃金年代,微積分的發展和牛頓萬有引力定律的建立,直接的推動了天文學和測地學的迅猛發展。這些天文學和測地學的問題,無不涉及到資料的多次測量、分析與計算。很多年以前,學者們就已經經驗性的認為,對于有誤差的測量資料,

「多次測量取算術平均是比較好的處理方法」

,并且這種做法現在我們依舊在使用。雖然當時缺乏理論上的論證,且也不斷的受到一些人的質疑,但取算術平均作為一種直覺的方式,已經被使用了千百年。 在多年積累的資料的處理經驗中也得到相當程度的驗證,被認為是一種良好的資料處理方法,但是在當時沒人能給出為什麼。

1805年,勒讓德提出了一種方法來解決這個問題,基本思想就是認為測量中有誤差,且讓所有方程的累積誤差為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

,然後通過最小化累積誤差來計算得到理論值。設真實值為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

,同時

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

分别為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

「獨立」

觀測後的測量值,每次測量的誤差為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

,按照勒讓德提出的方法,累計誤差為:

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

可以看出勒讓德給出的方法其實就是

「最小二乘法(Least Square)」

,且通過對

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

求導後并令其為0,求解

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

得到的結果正是算術平均

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

。由于算術平均是一個曆經考驗的方法,而以上的推理說明,算術平均是最小二乘法的一個特例,是以從另一個角度說明了最小二乘法的優良性,使當時的人們對最小二乘法更加有信心。(從這裡可以看出,這種做法的邏輯是:首先認為算術平均這種做法好但不知道為什麼,然後有人提出了一種衡量誤差的方法最小二乘,接着對誤差最小化求解後發現其解正是算術平均,是以肯定了最小二乘的有用性。事實上就是既沒有說清楚算術平均為什麼好,反而用算術平均的結果來肯定最小二乘的厲害,有點像用公理來推定理的味道)。

與此同時,伽利略在他著名的《關于兩個主要世界系統的對話》中,對誤差的分布做過一些定性的描述,主要包括:

「誤差是對稱分布的; 大的誤差出現頻率低,小的誤差出現頻率高」

(這也很符合我們的認知常識)。用數學的語言描述,也就是說誤差分布函數

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

關于

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

對稱分布,機率密度函數

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

增加而減小。于是許多天文學家和數學家開始了尋找誤差分布曲線的嘗試,但最終沒能給出什麼有用的結果。

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

你們不行讓我來

現在輪到高斯登場了,高斯在數學史中的地位極高,年輕的時候号稱數學王子,後來被稱為數學家中的老狐狸。數學家阿貝爾對他的評論是 :“高斯像一隻狐狸,用尾巴将沙地上的足迹抹去 (He is like the fox, who effaces his tracks in the sand with his tail) 。” 在誤差分布的進行中,高斯以極其簡單的手法确立了随機誤差的機率分布(即高斯分布),其結果成為數理統計發展史上的一塊裡程碑。

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

高斯的介入首先要從天文學界的一個事件說起。1801 年 1 月,天文學家朱塞普·皮亞齊發現了一顆從未見過的光度為8等的星在移動,這顆現在被稱作谷神星(Ceres)的小行星在夜空中出現 6 個星期,掃過八度角後就在太陽的光芒下沒了蹤影,無法觀測。而留下的觀測資料有限,難以計算出他的軌道,天文學家也是以無法确定這顆新星是彗星還是行星,這個問題很快成了學術界關注的焦點。高斯當時已經是很有名望的年輕數學家了,這個問題引起了他的興趣。高斯以其卓越的數學才能創立了一種嶄新的行星軌道的計算方法,一個小時之内就計算出了谷神星的軌道,并預言了他在夜空中出現的時間和位置。1801 年 12 月 31 日夜,德國天文愛好者奧伯斯 (Heinrich Olbers, 1758-1840),在高斯預言的時間裡,用望遠鏡對準了這片天空。果然不出所料,谷神星出現了!

高斯為此名聲大震,但是高斯當時拒絕透露計算軌道的方法,原因可能是高斯認為自己的方法的理論基礎還不夠成熟,而高斯一向治學嚴謹、精益求精,不輕易發表沒有思考成熟的理論。直到1809年高斯系統地完善了相關的數學理論後,才将他的方法公布于衆,而其中使用的資料分析方法,就是

「以正态誤差分布為基礎的最小二乘法」

。那高斯是如何推導出誤差分布為正态分布的?讓我們看看高斯是如何猜測上帝的意圖的。

姜還是老的辣

同樣設真實值為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

分别為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

「獨立」

觀測後的測量值,每次測量的誤差為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

,假設誤差

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

的密度函數為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

,則測量值的聯合機率為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

個誤差的聯合機率,記為:

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

高斯直接取使

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

達到最大值的

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

作為

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

的估計值,即

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

現在我們把

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

稱為樣本的似然函數,而得到的估計值

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

稱為極大似然估計。高斯首次給出了極大似然的思想,這個思想後來被統計學家費希爾系統的發展成為參數估計中的極大似然估計理論。(最大似然估計是指:在已知樣本結果的情況下,推斷出最有可能使得該結果出現的參數的過程。也就是說最大似然估計一個過程,它用來估計出某個模型的參數,而這些參數能使得已知樣本的結果最可能發生)

數學家波利亞 (George Pólya, 1887-1985) 說過:“要成為一個好的數學家,……, 你必須首先是一個好的猜想家 (To be a good mathematician,…, you must be a good guesser)。” 曆史上一流的數學家都是偉大的猜想家。高斯接下來的想法特别牛,他開始揣度上帝的意圖,而這充分展現了高斯的數學天才。高斯把整個問題的思考模式倒過來:既然千百年來大家都認為算術平均是一個好的估計,那我就認為極大似然估計導出的就應該是算術平均!是以高斯猜測上帝在創世紀中的旨意就是:

「誤差分布導出的極大似然估計 = 算術平均值。」

然後高斯去找誤差密度函數

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

以迎合這一點。即尋找這樣的機率分布密度函數

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

, 使得極大似然估計正好是算術平均

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

。而高斯應用數學技巧求解了這個函數

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

,并證明所有的機率密度函數中,唯一滿足這個性質的就是:

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

瞧,正态分布的密度函數

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

被高斯他老人家給解出來了!

進一步,高斯基于這個誤差分布的密度函數對最小二乘法給出了一個很漂亮的解釋。對于最小二乘公式中涉及的每個誤差

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

, 由于誤差服從機率分布

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

則其對應是似然估計為:

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

而要使得

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

最大化,則必須同樣使得

計算标準累積正态分布_神說要有正态分布,于是就有了正态分布。

取值最小,這就正好就是最小二乘法的要求了。(可以看出,高斯這種做法的初始動機仍舊是以算術平均作為一種“公理”;然後以此為基礎作出假設找到一種符合人們常識的誤差密度函數,即正太分布;接着高斯又提出了最大似然估計來推導得出了最小二乘法。但是其仍舊沒有解決算術平均為何優良。)

高斯所拓展的最小二乘法成為了 19 世紀統計學的最重要成就,它在 19 世紀統計學的重要性就相當于 18 世紀的微積分之于數學。而勒讓德和高斯的關于最小二乘法的發明權之争,成了數學史上僅次于牛頓、萊布尼茨微積分發明權的争端。相比于勒讓德 1805 年給出的最小二乘法描述,高斯基于誤差正态分布的最小二乘理論顯然更高一籌,高斯的工作中既提出了極大似然估計的思想,又解決了誤差的機率密度分布的問題,由此我們可以對誤差大小的影響進行統計度量了。高斯的這項工作對後世的影響極大,而正态分布也是以被冠名高斯分布。

17、18 世紀科學界流行的做法,是盡可能從某種簡單明了的準則 (first principle) 出發進行邏輯推導。高斯設定了準則“

「最大似然估計應該導出優良的算術平均」

”,并導出了誤差服從正态分布,并且推導的形式上非常簡潔優美。但是高斯給的準則在邏輯上并不足以讓人完全信服,因為

「算術平均的優良性當時更多的是一個經驗直覺,缺乏嚴格的理論支援」

。高斯的推導存在循環論證的味道:因為算術平均是優良的,推出誤差必須服從正态分布;反過來,又基于正态分布推導出最小二乘法和算術平均,來說明最小二乘法和算術平均的優良性。這陷入了一個雞生蛋蛋生雞的怪圈,邏輯上算術平均的優良性到底有沒有自行成立的理由呢?

解鈴還須系鈴人

高斯的文章發表之後,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正态分布既可以從抛鋼镚産生的序列和中生成出來,又可以被優雅的作為誤差分布定律,這難道是偶然現象?拉普拉斯不愧為機率論的大牛,他馬上将誤差的正态分布理論和中心極限定理聯系起來,提出了元誤差解釋。他指出如果誤差可以看成許多微小量的疊加,則根據他的中心極限定理,随機誤差理所應當是高斯分布。而 20 世紀中心極限定理的進一步發展,也給這個解釋提供了更多的理論支援。是以以這個解釋為出發點,高斯的循環論證的圈子就可以打破。 估計拉普拉斯悟出這個結論之後一定想撞牆,自己辛辛苦苦尋尋覓覓了這麼久的誤差分布曲線就在自己的眼皮底下,自己卻長年視而不見,被高斯占了先機。

至此,誤差分布曲線的尋找塵埃落定,正态分布在誤差分析中确立了自己的地位,并在整個 19 世紀不斷的開疆擴土,直至在統計學中鶴立雞群,傲世其它一切機率分布;而高斯和拉普拉斯的工作,為現代統計學的發展開啟了一扇大門。本次要介紹的内容就到此結束,青山不改,綠水長流,月來客棧見!

引用

  • 詳細内容參見(強烈推薦閱讀):https://cosx.org/2013/01/story-of-normal-distribution-1/