天天看點

每一位資料科學家都應掌握的理論是什麼?

早在2009年,google首席經濟學家hal varian就給出了一個非常著名的論斷:“在未來10年,統計學家将是最性感的職業”。那個時候,大資料還沒有熱炒起來,是以,對于這個職業,很多人也就是“不明覺曆”而已。

之後,大資料時代來臨,千“數”萬“樹”梨花開,各種資料概念撲面而來。在2012 年,babson商學院資深教授thomas h. davenport等人在文字上小做修飾,在《哈佛商業周刊》刊文指出,“在21 世紀,資料科學家是最性感的職業”(如圖1所示)。在本質上,davenport提出的“資料科學家”,基本等同于varian所說的“統計學家”。

一時間,很多人都以“資料科學家”身份自居,粉墨登場于各種場所。

每一位資料科學家都應掌握的理論是什麼?

圖1  商業周刊網站截圖

我們抽取20問其中的幾問,讓讀者感受一下:

1.       

請解釋一下正則化(regularization)是什麼,它為什麼非常有用?

2.       

請解釋一下查準率(precision)和查全率(recall)的概念。它們與roc曲線有什麼關系?

3.       

根本原因分析(root

cause analysis, rca)是什麼?

4.       

統計功效(statistical power)是什麼?

5.       

請解釋一下重采樣(resampling)方法是什麼,它為什麼很有用?它又有什麼局限性。

6.       

什麼是選擇性偏差(selection bias)?它為什麼很重要,又該如何避免它?

7.       

如何使用極值理論、蒙特卡洛模拟或數理統計(或其它理論),來正确估計一個非常罕見事件的發生幾率呢?

……

不能不說,這些問題涉及範圍廣泛而又不失犀利,一些“僞”資料科學家,在這些問題的“拷”問下,很快就會原形畢露,“兩股戰戰,幾欲先走”。

英特爾資料科學家jean-nicholas hould覺得這20問,還不夠給力!至少還得加一問:“<b>什麼是中心極限定理(</b><b>clt</b><b>)?為什麼它很重要?</b>”

這是每個資料科學家都應該懂的理論!為什麼是這樣?下面我們議議這個話題。

對數理統計知識有所了解的讀者,可能會知道,在自然界與生産中,一些現象受到許多互相獨立的随機因素的影響,如果每個因素所産生的影響都很微小時,那麼總的影響可以看作是服從正态分布的。中心極限定理,事實上,就是從數學上證明了這一現象。

為了說明中心極限定理的含義,假設研究對象為一個國家的啤酒飲客,現在我們就想弄明白一件非常簡單的事兒:飲客的平均年齡是多少?很顯然,直接解決這個問題,是非常困難的,因為我們不大可能有精力、有時間以将整個人口為研究對象,逐一去做問卷調查。

取代全國範圍内的調查,更為合适的方法是,我們收集100啤酒飲客的資料,作為樣本,通過這些樣本,我們可以得出一個均值,然後據此推斷全國啤酒飲客的平均年齡。對于第一組100位啤酒飲客,其均值年齡可能是35。下一組100位啤酒飲客,其均值可能是39。再下一組的均值可能是37。以此類推。當我們收集越來越多的樣本均值時,這樣均值點就構成了一個抽樣分布(sampling distribution)。比如說,前面提到的35,39或37,就是這個分布中的三個觀察點。

随着樣本均值點收集的數量越來越多,那麼這些均值形成的分布,大緻可形成一個鐘形曲線的,也就是說為正态分布,這就是所謂的中心極限定理的形象解釋。

比較學術化中心極限定理點的描述是:設從均值為μ、方差為σ^2。(有限的)任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布,近似服從均值為μ、方差為σ^2/n

的正态分布。

針對這個定理,我們需要注意兩點:(1)如果我們收集的樣本數量足夠大,樣本的均值趨近于總體的均值。(2)<b>中心極限定理并不是說原始總體</b>(比如說一個國家的啤酒飲客)<b>是符合正态分布的,而是說它的一組組抽樣的均值,是符合正态分布的</b>。

當樣本的容量越大(比如說,啤酒飲客抽樣數從100變成1000),那麼這個抽樣均值的分布,就越像正态分布,如圖2所示。換句話說,<b>大量互相獨立的随機變量,其均值的分布,是以正态分布為極限的。</b>

每一位資料科學家都應掌握的理論是什麼?

圖2  抽樣分布之中心極限定理

<b>中心極限定理最牛的地方在于,</b>不管原始随機變量遵循的是什麼分布,這個定理都是成立的。這個形式對數理統計特别有用!

中心極限定理在計量經濟學中有着廣泛的應用。應用案例之一,就是保險公司的保費确定。根據中心極限定理,含有n個風險機關的随機樣本的平均損失(樣本的均值),是符合正态分布的,這個結論對保險費率的厘定極為重要。保險公司不需要針對某一個人制定保險标準,而是拿某個階層的群體(可視為一個個抽樣集合),來作為研究對象,并參照同期銀行利率,經過精算後,來照制定保費。倘若沒有中心極限定理作為理論依據,保險公司采納的各種精算模型是無法建立的。

我們知道,統計學最本質的作用就是,<b>用樣本估計總體</b>。

中心極限定理作為統計學中一個非常重要的概念,它核心作用在于,可以讓每個資料科學家能對資料做出統計推斷。甚至在不需要特征化原來總體資訊的情況下(也就是說,原始總體遵循何種分布是無關緊要的),資料科學家依然能夠借助樣本,來量化評估它所代表的總體。

比如說,在數理統計中,有兩個常用的概念:置信區間(confidence interval)與假設檢驗(hypothesis testing)。前者說的是,由樣本統計量所構造的總體參數的估計區間,它可以告訴我們,總體值很可能落在相對于估計值的什麼位置。而後者說的是,根據一定假設條件,由樣本推斷總體的一種方法。這兩個概念背後的理論基礎,事實上,就是中心極限定理。

當然,中心極限定理的作用,并不僅僅局限于從樣本推斷整體。事實上,它的作用可以細分為如下4種類型:

(1)如果我們有一個樣本的有效資訊,那麼我們可以準确地推斷整體(正常作用)。

(2)如果我們有總體的資訊,那麼我們可以對某個有效樣本,來做較為準确的有關這個總體的假設。

(3)如果我們有總體的資訊和一個有效的樣本,那麼我們可以準确地推斷這個樣本是否來自這個總體。

(4)如果我們有兩個不同樣本的有效資訊,那麼我們還可以準确地推斷出兩個樣本是否來自相同的總體。

是以,作為一個合格的資料科學家,應該深入了解這個定理。隻有這樣,才能在“資料科技(data

technology,dt)”時代,遊刃有餘地處理樣本和總體之間的關系,這就是它為什麼這麼重要的原因。

邁爾-舍恩伯格在其著作《大資料時代》中,有一個非常重要的觀點:大資料可以做到“n=all”(這裡n代表采集的資料量),也就是“樣本=總體”。

我們知道,統計學的核心目的在于,<b>利用小樣本,評估大總體</b>。如果大資料時代真能做到“n=all”,的确,統計學的意義将大打折扣。

如果在大多數情況下,我們都無法做到“樣本=總體”,那麼依據樣本,評估總體的需求,依然會迫切存在。于是,作為統計學裡非常重要的定理——中心極限定理,還是值得每一位資料科學家掌握的。

繼續閱讀