天天看點

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

資料科學與工程技術叢書 點選檢視第二章 點選檢視第三章

計算機時代的統計推斷:算法、演化和資料科學

Computer Age Statistical Inference: Algorithms, Evidence, and Data Science

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

[美]布拉德利·埃夫隆(Bradley Efron)

特雷福·黑斯蒂(Trevor Hastie) 著

杭漢源 譯

機械工業出版社China Machine Press

第1章

算法與推斷

統計學是一門從經驗中學習的科學,特别是随着時間逐漸積累的經驗,例如一種新型實驗藥物的成功與失敗,對一顆小行星通往地球路徑的不确定性的度量。令人驚訝的是,任何一種理論都涵蓋“從經驗中學習”這樣一個不确定的目标。事實上,存在兩個主要的統計理論,分别是貝葉斯理論和頻率學理論,對于它們之間的聯系和差別的讨論,使得後面的許多章節變得更加有趣。

首先我們要讨論一個适用于這兩種理論的不那麼哲學性的、操作性更強的劃分,也就是統計分析的算法和推斷。這一差别起源于最基本且最流行的統計方法,即平均。假設我們已經觀察到數字x1,x2,…,xn适用于某些我們感興趣的現象,比如n=50個州的車禍率。均值為:

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

這一數值就給出了這個結果。

這個數值有多精确呢?教科書式的答案是由标準誤差給出的,

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

這裡求平均值(1.1)就是一個算法,而标準誤差則提供了對此算法精度的推斷。在統計理論中,令人驚訝和至關重要的一點是,提供估計的同一資料還可以用于評估其準确性。

當然,se(1.2)本身就是一種算法,能夠(并且确實可以)對其準确性進行更進一步的推斷分析。重點在于,算法是第一位的,推斷是在統計考慮中的第二級。在實踐中,這意味着算法發明是一個更自由和冒險的事業,同時,推斷通過努力評估一些熱門的新算法的準确性,對算法進行着改進。

如果推斷和算法的競賽是龜兔賽跑,那麼現代計算已經孕育出了仿生兔。這裡有兩個現象:基于計算機的技術使得科學家能夠收集大量的資料集,其數量級比傳統統計理論能進行處理的資料的量級大得多;龐大的資料需要新的方法論,該需求正通過大量基于計算機的新的統計算法得到滿足。人們在新聞中讀到的“大資料”,往往是這些算法扮演着主角。

本書強調了統計推斷在故事中作為烏龜的一方。過去的幾十年一直是統計學方法論的黃金時代,但它還不是統計推斷的一個黃金時代,也不是一個黑暗的時代。蓬勃發展的新算法推動了統計推斷的進化(盡管這不是革命),統計學家從各種湧現出來的新算法之中做出相應理論的進化。這本書追溯了自20世紀50年代以來,方法論和推斷之間的互相作用,這是統計學科計算機時代的開始。在結束本章之前,我們将通過兩個簡單的例子來描述從傳統統計時代到計算機時代的過渡。

1.1 一個回歸的例子

圖1.1涉及腎功能的研究。資料點(xi,yi)觀測自n=157名健康的志願者,其中xi是第i個志願者的年齡,機關是年,yi是對整體功能的綜合測量“tot”。腎功能通常随着年齡的增長而下降,這從樣本點的向下散布趨勢中可以明顯看出。腎功能下降的速度是腎移植的一個重要問題,在過去,60歲以上的潛在捐助者被禁止捐獻,但由于捐贈者人數不足,這一規定已不再執行。

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

圖1.1中的實線是一個線性回歸模型

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

它用最小二乘法來拟合資料,即選擇使得偏差的平方和

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

最小的(β0,β1)。最小二乘算法可以追溯到高斯和勒讓德在19世紀初給出的最小二乘估計β0=2.86和β1=-0.079。我們可以從拟合出的直線上讀出任何所選年齡對應的腎健康的估計值。表1.1的第一行顯示20歲時的估計值為1.29,80歲時的估計值為-3.43。

這些估計有多準确?這是引入推斷的地方。公式(1.2)的擴充版本也可以回溯到19世紀,它提供了這一估計的标準誤差,如表1.1的第2行所示。圖1.1中的垂直條是正負兩倍的标準誤差,在每個年齡約有95%的可能包含tot真實的期望值。

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

這個95%的覆寫率取決于線性回歸模型(1.3)的有效性。我們還可以嘗試二次回歸

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

,或者三次回歸等,這些都在計算機時代之前的統計理論的範圍内。

現代計算機算法lowess在圖1.2中産生了有些颠簸的回歸曲線。lowess算法将其注意力沿着x軸移動,将不同階的局部多項式曲線拟合到(x,y)點附近。(出現在lowess(x,y,1/3)中的1/3決定了局部的定義。)在x軸上重複通過可以改善拟合,減少偶爾異常點的影響。圖1.2中的拟合曲線在右邊幾乎是線性的,但在左邊的點更密集的情況下更為複雜。拟合曲線在25歲到35歲之間是平坦的,與圖1.1中描繪的均勻下降有潛在的重要差別。

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

沒有形如(1.2)的公式可推導出lowess曲線的準确性。作為替代,自助法這一計算機密集型推斷引擎,曾被用來計算圖1.2中的誤差條。一個自助資料集是通過對原來的157對樣本(xi,yi)進行替換來重新采樣的。是以也許(x1,y1)在自助樣本中出現兩次,但(x2,y2)可能會丢失,而(x3,y3)隻出現一次。将lowess應用到自助樣本會生成原始計算的一個自助複制。

圖1.3顯示了圖1.2中在原始曲線周圍彈跳的前25個(共250個)自助lowess複制圖。對任何一個年齡下的複制圖的可變性,自助标準差都決定了原始曲線的準确性。第10章讨論了自助法的工作機制和原理。無論算法有多麼複雜,自助法都在評估該算法估計精度方面,具有巨大優勢。然而,代價是計算量增加百倍或者千倍。這在1930年是不可想象的,但現在則很常見。

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

表1.1的底部兩行展現了lowess估計值和它們的标準誤差。lowess的标準誤差大約是線性回歸的2倍,這是我們為增加lowess的靈活性所付出的代價。

1.2 假設檢驗

我們的第二個例子涉及假設檢驗而不是估計的方法論和推斷的推進:72名白血病患者中,47名患有ALL(急性淋巴細胞白血病),25名患有AML(急性髓樣白血病,預測更差)。每位患者均具有針對7128個基因組的測量的遺傳活性。圖1.4中的直方圖比較了兩組中基因136的遺傳活性。

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

AML組似乎顯示出更大的活性,其均值為

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

我們所感覺的差異是真實的,還是像人們喜歡說的那樣,是“統計的僥幸”?這個問題的經典答案是通過一個兩樣本t-統計量。

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

其中sd是分子标準差的估計。

除以sd可使我們(在第5章讨論的高斯假設下)将t的觀測值與标準“零”分布進行比較,在這種情形中,“零”分布是一個自由度為70的學生t分布。我們從(1.6)中得到t=3.01,這通常被認為是強有力的證據,證明(1.5)中呈現的差異是真實的;在标準術語中,描述為“雙側顯著性水準為0.0036”。

一個小的顯著性水準(或“p-值”)是對統計意外的表述:如果事實上ALL和AML患者之間的基因136表達水準沒有差異,則已發生非常不尋常的事情。如果基因136僅僅是可能産生“有趣”結果的成千上萬個候選者之一,我們就不會對t=3.01感到驚訝。

在此情況就是這樣。圖1.5顯示了7128個基因的兩樣本t-統計量的直方圖。現在t=3.01看起來沒那麼不常見,其他t超過3.01的400個基因,約占總體的5.6%。

帶你讀《計算機時代的統計推斷:算法、演化和資料科學》之一:算法與推斷第1章

這并不意味着基因136在“0.056水準上是顯著的”。這裡存在兩個強大的複雜因素:

1.大量的候選者,在這裡指7128個基因,将産生一些大的t值,即使ALL和AML患者之間的基因表達确實沒有差異。

2.直方圖意味着在這項研究中,理論零分布是有問題的(“學生t的自由度為70”),即圖1.5中的平滑曲線存在問題。這個中心太狹窄了,據推測大多數基因報告的結果并不顯著。

我們将在第15章中看到,在ALL/AML研究中,低的錯誤發現率,即一個無害的基因被錯誤地識别為有害的機率較低,需要t超過6.16。7128個基因中隻有47個進行切割。錯誤發現率理論在統計推斷中是一個令人印象深刻的進步,它融合了貝葉斯、頻率論和經驗貝葉斯(第6章)元素。這是科學世界的一個必要的進步,在這個世界裡,基于計算機的技術經常呈現數以千計的比較結果。

關于算法/推斷統計循環還有一件事要說明。重要的新算法經常出現在專業統計學家的世界之外:神經網絡、支援向量機和提升算法是三個著名的例子。這一切都不奇怪。新的資料來源,例如衛星圖像或醫學微陣列,激發觀察科學家産生新方法。早期的文獻傾向屬于較熱情的一類,這類文獻會聲稱它所提出的方法具有巨大的适用性和力量。

在第二階段,統計學家試圖将新的方法定位在統計理論架構内。換句話說,他們執行循環的統計推斷部分,将新方法置于已知的貝葉斯和頻率論方面的性能極限之内。(提升算法提供了一個很好的例子,見第17章。)這是一個健康的連鎖事件,對于統計專業的混合活力和算法技術的進一步發展都是好事。

1.3 注釋

勒讓德在1805年發表了最小二乘算法,高斯說他從1795年以來一直使用該方法進行天文軌道拟合。鑒于高斯在重大數學進展方面的驚人成就,這說明了最小二乘思想的重要性。第8章介紹了其通常的代數表達式,以及标準誤差(表1.1的第2行)的高斯公式。

我們在算法和推斷之間的劃分讓人想起圖基的解釋/确認系統。然而,目前的算法世界比“探索性”這個詞所表達的意思更大膽,而在我們的思維中,“推斷”則表達了比單純的确認更豐富的東西。

注釋

1.Lowess是由William Cleveland(Cleveland,1981)設計的,并且可用R統計計算語言實作。它被應用于Efron(2004)的腎髒資料。腎髒資料起源于斯坦福大學Brian Myers博士的腎髒病學實驗室。

繼續閱讀