每一位資料科學家都應掌握的理論是什麼？

早在2009年，google首席經濟學家hal varian就給出了一個非常著名的論斷：“在未來10年，統計學家将是最性感的職業”。那個時候，大資料還沒有熱炒起來，是以，對于這個職業，很多人也就是“不明覺曆”而已。

之後，大資料時代來臨，千“數”萬“樹”梨花開，各種資料概念撲面而來。在2012 年，babson商學院資深教授thomas h. davenport等人在文字上小做修飾，在《哈佛商業周刊》刊文指出，“在21 世紀，資料科學家是最性感的職業”(如圖1所示)。在本質上，davenport提出的“資料科學家”，基本等同于varian所說的“統計學家”。

一時間，很多人都以“資料科學家”身份自居，粉墨登場于各種場所。

圖1 商業周刊網站截圖

我們抽取20問其中的幾問，讓讀者感受一下：

請解釋一下正則化（regularization）是什麼，它為什麼非常有用？

請解釋一下查準率（precision）和查全率（recall）的概念。它們與roc曲線有什麼關系？

根本原因分析（root

cause analysis， rca）是什麼？

統計功效（statistical power）是什麼？

請解釋一下重采樣（resampling）方法是什麼，它為什麼很有用？它又有什麼局限性。

什麼是選擇性偏差（selection bias）？它為什麼很重要，又該如何避免它?

如何使用極值理論、蒙特卡洛模拟或數理統計（或其它理論），來正确估計一個非常罕見事件的發生幾率呢？

……

不能不說，這些問題涉及範圍廣泛而又不失犀利，一些“僞”資料科學家，在這些問題的“拷”問下，很快就會原形畢露，“兩股戰戰，幾欲先走”。

英特爾資料科學家jean-nicholas hould覺得這20問，還不夠給力！至少還得加一問：“什麼是中心極限定理（clt）？為什麼它很重要？”

這是每個資料科學家都應該懂的理論！為什麼是這樣？下面我們議議這個話題。

對數理統計知識有所了解的讀者，可能會知道，在自然界與生産中，一些現象受到許多互相獨立的随機因素的影響，如果每個因素所産生的影響都很微小時，那麼總的影響可以看作是服從正态分布的。中心極限定理，事實上，就是從數學上證明了這一現象。

為了說明中心極限定理的含義，假設研究對象為一個國家的啤酒飲客，現在我們就想弄明白一件非常簡單的事兒：飲客的平均年齡是多少？很顯然，直接解決這個問題，是非常困難的，因為我們不大可能有精力、有時間以将整個人口為研究對象，逐一去做問卷調查。

取代全國範圍内的調查，更為合适的方法是，我們收集100啤酒飲客的資料，作為樣本，通過這些樣本，我們可以得出一個均值，然後據此推斷全國啤酒飲客的平均年齡。對于第一組100位啤酒飲客，其均值年齡可能是35。下一組100位啤酒飲客，其均值可能是39。再下一組的均值可能是37。以此類推。當我們收集越來越多的樣本均值時，這樣均值點就構成了一個抽樣分布（sampling distribution）。比如說，前面提到的35，39或37，就是這個分布中的三個觀察點。

随着樣本均值點收集的數量越來越多，那麼這些均值形成的分布，大緻可形成一個鐘形曲線的，也就是說為正态分布，這就是所謂的中心極限定理的形象解釋。

比較學術化中心極限定理點的描述是：設從均值為μ、方差為σ^2。（有限的）任意一個總體中抽取樣本量為n的樣本，當n充分大時，樣本均值的抽樣分布，近似服從均值為μ、方差為σ^2/n

的正态分布。

針對這個定理，我們需要注意兩點：（1）如果我們收集的樣本數量足夠大，樣本的均值趨近于總體的均值。（2）中心極限定理并不是說原始總體（比如說一個國家的啤酒飲客）是符合正态分布的，而是說它的一組組抽樣的均值，是符合正态分布的。

當樣本的容量越大（比如說，啤酒飲客抽樣數從100變成1000），那麼這個抽樣均值的分布，就越像正态分布，如圖2所示。換句話說，大量互相獨立的随機變量，其均值的分布，是以正态分布為極限的。

圖2 抽樣分布之中心極限定理

中心極限定理最牛的地方在于，不管原始随機變量遵循的是什麼分布，這個定理都是成立的。這個形式對數理統計特别有用！

中心極限定理在計量經濟學中有着廣泛的應用。應用案例之一，就是保險公司的保費确定。根據中心極限定理，含有n個風險機關的随機樣本的平均損失（樣本的均值），是符合正态分布的，這個結論對保險費率的厘定極為重要。保險公司不需要針對某一個人制定保險标準，而是拿某個階層的群體（可視為一個個抽樣集合），來作為研究對象，并參照同期銀行利率，經過精算後，來照制定保費。倘若沒有中心極限定理作為理論依據，保險公司采納的各種精算模型是無法建立的。

我們知道，統計學最本質的作用就是，用樣本估計總體。

中心極限定理作為統計學中一個非常重要的概念，它核心作用在于，可以讓每個資料科學家能對資料做出統計推斷。甚至在不需要特征化原來總體資訊的情況下（也就是說，原始總體遵循何種分布是無關緊要的），資料科學家依然能夠借助樣本，來量化評估它所代表的總體。

比如說，在數理統計中，有兩個常用的概念：置信區間（confidence interval）與假設檢驗(hypothesis testing)。前者說的是，由樣本統計量所構造的總體參數的估計區間，它可以告訴我們，總體值很可能落在相對于估計值的什麼位置。而後者說的是，根據一定假設條件，由樣本推斷總體的一種方法。這兩個概念背後的理論基礎，事實上，就是中心極限定理。

當然，中心極限定理的作用，并不僅僅局限于從樣本推斷整體。事實上，它的作用可以細分為如下4種類型：

（1）如果我們有一個樣本的有效資訊，那麼我們可以準确地推斷整體（正常作用）。

（2）如果我們有總體的資訊，那麼我們可以對某個有效樣本，來做較為準确的有關這個總體的假設。

（3）如果我們有總體的資訊和一個有效的樣本，那麼我們可以準确地推斷這個樣本是否來自這個總體。

（4）如果我們有兩個不同樣本的有效資訊，那麼我們還可以準确地推斷出兩個樣本是否來自相同的總體。

是以，作為一個合格的資料科學家，應該深入了解這個定理。隻有這樣，才能在“資料科技（data

technology，dt）”時代，遊刃有餘地處理樣本和總體之間的關系，這就是它為什麼這麼重要的原因。

邁爾-舍恩伯格在其著作《大資料時代》中，有一個非常重要的觀點：大資料可以做到“n=all”（這裡n代表采集的資料量），也就是“樣本＝總體”。

我們知道，統計學的核心目的在于，利用小樣本，評估大總體。如果大資料時代真能做到“n=all”，的确，統計學的意義将大打折扣。

如果在大多數情況下，我們都無法做到“樣本＝總體”，那麼依據樣本，評估總體的需求，依然會迫切存在。于是，作為統計學裡非常重要的定理——中心極限定理，還是值得每一位資料科學家掌握的。

每一位資料科學家都應掌握的理論是什麼？

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark