大資料面前,統計學的價值在哪裡

1 統計學對大資料的意義

很高興有這樣一個機會，我能與大家在這裡做一些關于統計學與大資料的交流，與大家分享一些觀點。

在講大資料之前，我們首先來看看什麼是資料。很長一段時間裡，大家對資料的了解，可能隻是停留在阿拉伯數字這個層面。近些年來，大家開始講大資料。結果有人就開始好奇了：這個大資料和我們之前說的資料有什麼關系呢？

阿拉伯數字是不是資料呢？當然是資料。大資料是不是資料呢？當然也還是資料。不過，現在我們對資料的了解要廣泛得多了。凡是可以被資料化的資訊載體，我們都可以認為是資料。比如說，我們接觸的文本，包括平時看到的一些文字，現在我們都可以把它量化。我們看到的圖檔、視訊和音頻，現在也都可以量化。包括阿拉伯數字、文本、圖檔、視訊和音頻，我們都稱之為資料。現在我們了解的資料，從來源上來說更加廣泛了，從類型上說變得很複雜了。這些不同來源、類型複雜的資料組合在一起，達到一定的體量之後，就可以認為是一個大資料了。

現在我們來說一下統計學，統計學是什麼呢？首先，從學科定位上說，統計學已經被列為一級學科了。這一點和數學、法學等都一樣了。大不列颠百科全書對統計學有個定義，說這是一門收集資料、分析資料的科學和藝術。定義中提到統計學是一門科學，這個容易了解。那為什麼說統計學是一門藝術呢？這個問題，就和我今天主要回答的一個問題很有關系。順便說一句，現在美國很多高校的統計系，它并不設在理學院下面，而是設在藝術學院下面。

今天我主要回答一個問題：在大資料時代，我們究竟是否需要基于抽樣的統計學？

有些人認為，現在計算機科學非常發達，可以收集海量的資料。為了特定的研究目的，我們現在甚至有能力通過計算機技術收集與特定的研究目的相關的全部資料。今天，基于抽樣的統計學就沒有那麼重要了，甚至都不在被需要了。事實真的是這樣嗎？

2 統計學是一門收集資料的藝術

既然統計學被認為是一門收集資料、分析資料的科學和藝術。我們暫時不談科學，先來看看統計學為什麼被認為是一門收集資料的藝術。

我們來看第一個案例。這個案例是希望調查15個國家的國民的誠實情況。調查人員想要知道，哪些國家的國民最傾向于撒謊，哪些國家的國民很誠實。如果直接去問被調查的人員：“您是否撒過謊？”十之八九，是問不到真實答案的。如果被調查人員以前撒過謊，也不在乎多撒這個謊了。被調查人員可能出于不同的動機，不願意給出真實答案。那麼，調查資料怎麼得來呢？這顯然不是簡單地通過計算機技術、通過某些爬蟲軟體就容易收集到适合研究目的相關資料的。

如何利用統計學方法來收集資料呢？這就需要統計學的智慧了。調查人員設計了兩組實驗。

調查人員先從每一個國家找1000人參與測試，15個國家一共找了15000人，找這麼多不同國家的人來面對面調查，這是非常困難的，是以調查人員通過網際網路找到了這15個國家共計15000人。兩組實驗都是在網際網路上進行的。

在第一組中，他們先做了一個測試，請受調查者在家裡抛硬币，硬币有正反兩面，調查者事先規定，受調查者抛硬币之後要告訴我結果，如果硬币正面朝上，我就獎勵你十塊錢，如果反面朝上，我就不給你獎勵。這個調查不需要提供你抛硬币的證據，隻是由你告訴調查者，抛硬币的結果。這也就是說，受調查者有沒有撒謊，隻有他自己知道。

這個最後的結果，實際上調查者是有參照的。因為，每個國家有1000人參與測試。正常情況下，1000次抛硬币的結果，應該是500次左右正面朝上。某個國家參與實驗的1000個人之中，如果有900個人聲稱自己抛出來的硬币正面朝上，甚至1000人聲稱抛出來硬币正面朝上。那麼，很大機率就是其中有人撒謊了。這是第一組實驗。

第一組的實驗有價值，但是它也不一定能夠全面反映真實的情況，是以調查人員還有第二組實驗。

第二組實驗，是要求受調查者回答五個問題。這五個問題在回答之前，需要受調查者承諾，他不能為了答題去查閱任何資料，不能去尋求任何幫助，也就是說，看了這五個問題之後，受調查者需要立即給出答案。調查者承諾，如果五個問題中，回答對了四個以上，就獎勵給受訪者十塊錢，如果答對三個或者三個以下，就沒有獎勵。

而這五個問題中，其中有三個問題特别簡單，類似于像1+1等于幾這種問題。另外兩個問題則非常生僻。如果受調查者不去查閱資料或咨詢他人的話，基本是不太可能回答出來的。是以，如果有受調查者答對了這兩道難題，十有八九就說明他違反了自己事先承諾的“不去查閱資料尋求幫助”，由此可以推論他在這件事情上不誠實。

然後統計人員通過這兩組實驗結果，互相驗證。這兩組資料收集的過程都非常恰當地展現了統計學在收集資料方面的智慧。

是以說，即使在大資料時代，不是說有了計算機，有了爬蟲技術，我們就能收集到适合研究目的的所有資料。統計學是一個收集資料的藝術，針對特定的研究目的，設計非常漂亮的資料收集方案，就是一個非常藝術的收集資料的過程了。

我們再舉一個例子。這是最近美國麻省理工剛剛完成的一個實驗，大緻在2018年左右完成的，實驗結果也公布出來了。目的是想了解大家目前的婚姻觀念，100人受到邀請來到一個封閉的場所參與這個實驗。參加實驗時，每人都會被貼上一個編号。男的編号是單數一三五七九，女的編号是雙數二四六八十，以此類推。參與實驗的這100人不知道自己的編号，也不知道究竟有多少人參加了這次實驗。換句話說，他們不知道參加這次實驗的正好是50個男人和50個女人，受訪者僅僅知道，這次實驗有很多人參加。

在這裡統計人員采取了一點小花招，就是當受訪者進門的時候，把編号貼在受訪者後背上，受訪者知道自己有編号，但是不知道自己的編号是多少，不過他能夠看到别人後背上的編号。實驗規則說，允許100人中的任何兩個人進行交談，除了不能告訴對方他的後背編号是多少，其他話題都可以談。

然後實驗者把這100人帶到一個很小的一個房間裡，宣布給大家5分鐘時間，在這5分鐘内，大家自行配對，每人隻能配一名異性。5分鐘結束之後，如果配對成功了，兩個人背後的數字加起來乘以十，就是兩人能夠拿到的獎金。也就是說，如果編号是100的那個女性找到了那個編号為99的男性，那麼兩人就可以拿到（100+99）×10的獎金，也就是1990美元，這筆錢已經很可觀了。但是如果你是一個編号為2的女性，而你找到的是那個編号為1的男性，那麼你倆隻能得到（1+2）×10也就是30美元，你倆用這獎金一起吃頓飯都不一定夠。但是5分鐘之後，如果還沒有配對成功的話，你就連一美分都拿不到。是以，參加者必須在5分鐘之内，在一個很小的擁擠空間内，盡快找到願意跟自己配對的那個人。而且在這個過程中，要盡可能讓自己的獎金數額變得很大。

實驗人員之是以把100人故意安排在非常擁擠的小房間内，就是考慮到，一方面要讓大家能夠很快速地看到一些人的編号，另一方面又能保證一個人不可能看到所有人的編号。在人擠人的情況下，有些編号是肯定看不到的。

3 實驗開始了

一些人很快就發現，自己連續跟别人配對三四次，大家都拒絕他。這很可能說明，自己後背的編号數字不夠大，别人不感興趣。于是這其中就有人采取了應對政策，他跟别人講，如果你願意跟我配對的話，那我願意把獎金全部給你，反正我數字也不大，是以我的錢不要了。還有人說，隻要你這次跟我配對成功了，我們出去以後，我再單獨請你吃頓飯。

另外還有一些人，雖然他不知道自己後背的編号，但是他發現有很多人過來找他，是以他很快就意識到，自己後背的編号很可能很大，但具體多大，他并不知道。而且要盡可能讓兩個人組合出來的數字變得很大。于是他很快就把眼前這批他能看到數字的人拒絕掉了，因為他理所當然地認為接下來肯定還有更大的編号，但是他并不知道最大的編号是多少，同時他還必須要在5分鐘内快速決定跟誰配對。

這個實驗的結果是，編号99的男性并沒有與編号100的女性配對成功。那位編号100的女性，找到的是編号八十幾的一位男性。那些數字在中間的人，大體都配對了跟自己差不多的另一個人。這個結果，很符合中國的一種傳統思想，也就是門當戶對。

我們現在來看這個實驗的結果，它基本上跟中國男女婚姻觀念的現實比較類似。比如說，實驗者因為自己編号小，就讓渡自己的獎金給對方甚至于承諾事後請對方吃飯，以求得成功配對，這個跟現實中“我的個人條件差一些，但是我父母同意我們兩個結婚之後送給我們一套房子”的承諾是類似的。而且我們在生活中也發現，一些最優秀的男性女性，他們身邊不乏追求者，但是他們并沒有找到自己的“最佳比對對象”。

這個資料的收集過程也是非常漂亮的。

資料并不是越多越好

統計本身是一門收集資料的科學，但是資料是不是越多越好呢？很難說。

曆史上有一個非常有名的例子。大約500年之前，丹麥有一個天文學家叫第谷，他從當時的丹麥國王那裡要了一筆錢，建了一個實驗室。第谷天天去觀察每顆行星的運動軌迹，并且每天記錄下來。于是第谷觀察了20年，記錄了大量的資料。不過，這個資料太多了，第谷花了大量時間、精力來分析這個資料，但沒有發現任何規律。

這時候，一個叫開普勒的人出現了。開普勒認為，第谷每天去觀測，一年365天每一顆行星都會有365個資料，這樣20年觀測記錄積累下來，要分析處理的資料就太多了，而且那個時候的資料分析隻能依靠手工計算，這個處理工作量實在太大了。于是開普勒就說，能不能每年隻給我一個資料，比如說你可以隻告訴我每年的1月1日，地球在什麼位置，土星在什麼位置，太陽在什麼位置，等等。這樣20年的觀測資料篩選之後，每一顆行星的資料就隻有20個了。開普勒知道，地球每隔365天會回到同一個位置，然後他把地球的位置固定，再分析其他行星跟地球的相對位置。開普勒通過固定地球的位置，對其他行星位置20年的資料進行分析，就成功得到了其他行星的運作軌迹。此後開普勒就發現，如果地球位置不變的話，那麼其他行星的20年運作軌迹畫出來之後，這些行星都是圍着太陽運轉，運作軌迹都是橢圓形的。由此開普勒發現了行星運動的規律。

從這個天文學上的著名案例，我們可以看出來，資料太多可能會導緻資訊量變得巨大，反而增加尋找到規律的難度。進而需要通過科學的方法簡化資料。

關于這方面的案例還有不少。比如說美國總統富蘭克林·羅斯福。他是美國曆史上唯一一位連任四屆的總統。1932年的時候他第一次當總統，當時美國和許多國家正在遭受經濟危機，羅斯福面臨的壓力也很大。是以到了1936年羅斯福想競選自己的第二任總統的時候，美國許多人預測羅斯福很難連任。那一次，羅斯福的主要競選對手是蘭登。當時就有兩個機構在預測總統選舉結果，其中一個是《文學文摘》雜志，它在當時是一個非常有影響力的刊物，因為這個雜志此前幾次對總統選舉結果的預測都成功了。到了1936年美國總統選舉的時候，文學文摘搞了一個大的調查統計，它調查了240萬人。具體方式就是在雜志裡面夾上關于總統選舉的調查問卷，然後收集回報。其實當時文學文摘調查的還不止240萬人，還要更多，隻不過最後收回來的有效問卷是240萬份。正是根據這個調查結果，文學文摘宣布他們預測蘭登将戰勝羅斯福赢得大選。

而當時還有一個機構，準确地說是一個年輕人，叫蓋洛普，他的預測結果跟文學文摘的預測正好相反。起初蓋洛普做這類調查統計，是因為他的母親要競選衆議員，他是給他母親幫忙，于是就在經費不多的情況下做了對較小人群的相關調查，然後這個調查結果很成功，他母親當上了衆議員。接下來他就想調查一下，羅斯福和蘭登誰會赢得1936年競選。但是他比不了文學文摘的财大氣粗，是以他隻調查了5000個人，根據這5000人的調查結果，蓋洛普預測羅斯福當選。

結果羅斯福果然成功連任總統，蓋洛普的預測勝利了。

這個選舉結果出來之後，對《文學文摘》雜志的聲譽造成了巨大的沖擊：畢竟文學文摘調查了240萬人，最後卻釋出了一個錯誤的預測，而蓋洛普隻調查了5000人，釋出的預測卻是正确的。結果，文學文摘因為這個事情後來就關門倒閉了。而那個年輕人蓋洛普，就此成立了一個民意調查公司，也就是現在的蓋洛普咨詢公司。

這是事情的結果。那麼為什麼調查了5000人的預測，要比調查240萬人的結果更準确呢？我們先不說240萬這種海量資料，它在規模變大以後會帶來計算效率的下降，我們也不提這類海量收集資料會導緻成本居高不下的問題。根本的原因，是當時文學文摘通過雜志夾帶問卷進行調查的這種方式。因為當初問卷是夾在雜志中發放的，是以文學文摘收集來的240萬份有效問卷，實際面對的都是訂閱了這份期刊的使用者。那麼，當時什麼樣的家庭會訂閱這樣的雜志呢？一般來說都是家境比較好的家庭，是以，文學文摘雖然号稱調查了240萬人之多，但是它調查的主要群體，是當時美國國内相對而言有錢的那部分人。而窮人群體的意見，它這個調查實際并沒有覆寫到。

資料的量多不一定就代表準确，收集來的資料品質好、有代表性，才有可能分析出準确的結果。

4 統計學是一門分析資料的藝術

前面舉了一些例子，提醒我們需要非常小心地設計方案收集資料。資料收集上來之後，我們還要做資料分析。按照前面大不列颠百科全書的說法，統計學同樣是一門分析資料的藝術。

講到資料分析，在這裡我隻講兩個基本概念：相關與因果。為什麼講這兩個概念呢？這是因為人們常常混淆這兩個概念，常常會把相關關系誤以為是因果關系。在許多科學研究和政策問題評價中，我們更關心因果關系。但是，當我們看到了某種形式的相關關系後，常常會誤以為這就是我們追求的因果關系了。

比如說，在中世紀的歐洲，很多人相信，虱子對人的健康是有幫助的。這是因為當時人們發現，得病的人身上很少有虱子，而健康人的身上反而是有虱子的。這是長期的觀察累積下來，形成的經驗。在中世紀的歐洲，很長一段時間裡人們都根據這個經驗，得出這樣一個因果推論：這個人身上有虱子，是以他身體健康，那個人身上沒虱子，說明他身體不健康。

當時，人們确實觀察到虱子的存在與否跟人是否健康構成了相關關系，但是，這是因果關系嗎？有了溫度計以後，人們就發現了，這不是真正意義上的因果關系：因為虱子對人的體溫非常敏感，它隻能在一個很小的溫度區間範圍生存下來。而人體一旦生病的話，很多時候會出現發燒症狀。人體一發燒，溫度變化，虱子就無法适應發燒時候的熱度，于是跑掉了。如果我們隻停留在觀察到健康與否和虱子多寡之間存在關系，那實際隻是相關關系，而不是因果關系。與之類似的例子還有很多，比如說，我們看到每年冰淇淋銷量增加的同時，各地不幸溺亡的人數也在增加。那麼這兩件事情是不是構成因果關系呢？常識告訴我們，肯定不是。其實是因為每年氣溫升高之後，遊泳的人可能就多了起來了，随之溺亡人數也就相應增加了。而同樣是因為氣溫升高，冰淇淋的銷量也會增加。

也就是說，如果我們觀察到一個因素出現了一點點變化，另外一個因素也會随着跟它變化，它們之間可能就有相關關系，但是這種相關關系，并不意味着這兩個因素構成因果關系。

如何判斷因果關系呢，這就需要我們非常小心，而且要非常藝術地做資料分析了，我們最終還是要回到統計學上來。

這裡，我們舉一個曆史上的疾病案例，這就是小兒麻痹症，也就是脊髓灰質炎。現在大家看到的小兒麻痹症病例比較少，因為現在有相應的疫苗。曆史上，脊髓灰質炎曾經是一個讓人非常害怕的疾病。

在20世紀50年代，當時美國一所大學的實驗室，做出了一種針對這個疾病的疫苗，已經證明它在實驗室條件下能夠産生有效的抗體。但是他們不知道，如果應用到實際生活中的大規模實驗，這個疫苗還會不會有效。是以當時美國政府部門就決定要做實驗，這個時間大緻在1954年。因為當時脊髓灰質炎的患者主要是孩子，是以當時的實驗人群定為國小一二三年級的學生。怎麼做實驗才能夠真正說明疫苗是否有效呢？為了確定統計結果最終反映真實的因果關系，當時提出了五套實驗方案。

第一套方案是，因為1953年之前是沒有這個疫苗的，是以就從1954年開始，給所有的一二三年級國小生接種疫苗，最後再來看一下，1954年的發病率，跟1953年相比，會不會有差别。這個方案是個辦法，但是它有問題，因為之前每一年的脊髓灰質炎發病率的差别比較大。比如說1951年全美可能有3萬名脊髓灰質炎患者，1952年則有6萬名，而1953年又可能縮減到不足4萬名。這個脊髓灰質炎每年發病率的波動都比較大，萬一到時候實驗結果是3萬名到4萬名之間，如何判斷這個結果是随機變化的，還是疫苗發生了作用？

第二個方案則提出要按照地區來做。比如，在紐約地區，就給一二三年級國小生們全部接種疫苗，而在芝加哥地區的就全部不接種疫苗，然後來統計，紐約和芝加哥這兩個地區的脊髓灰質炎發病情況。這個方案後來發現也不行。因為脊髓灰質炎本身就是傳染病，一個地區可能流行這個疾病了，而另外一個地區就可能沒流行，那麼這兩個地區的資料看起來就會有差異，但是這不是疫苗的效果，不具有可比性。

于是就有人提出了第三個方案。因為當時這個疫苗接種，誰也不知道有沒有副作用，是以是有一定風險的。是以這個方案就提出，讓接種疫苗的孩子們的父母來自行選擇。有的家長選擇給孩子接種疫苗，有的就不選擇接種，這樣同一批孩子就會出現不同的對照。但是這麼做，也有問題。因為當時人們已經發現，脊髓灰質炎的患者一般來自于家境比較好的家庭。這是因為，那些家庭經濟狀況比較差的家庭，因為生活條件差，衛生條件不好，可能一個人很早就接觸過脊髓灰質炎的病毒了，甚至很可能在剛剛出生的時候就接觸了脊髓灰質炎的病毒，但是剛出生的嬰兒是有母體的免疫力的，嬰兒憑借母體的免疫力，接觸這個病毒之後能夠産生抗體，反而不會得病。當時的這類資料情況已經展現了這種現象。如果采用自願接種的方式，那些經濟狀況比較好的家庭，往往願意讓自己的小孩去接種，而經濟狀況不好的家庭由于經費原因，同時也知道自己這個階層染病率稍微低一些，他可能就不願意接種了。這樣就造成了對實驗結果的幹擾，你無法判斷到底是疫苗有效還是經濟原因導緻的不同結果。

然後是第四個方案。有人提出，隻讓二年級的學生接種，而一年級和三年級學生不接種。之後再比較接種的跟不接種的學生之間的差別，看他們的發病率會不會有差别。這個方案是當時的一個脊髓灰質炎防治委員會提出的方案。這個方案同樣行不通，第一，它同樣無法避開接種孩子家庭貧富差距導緻的患病機率差異。第二，脊髓灰質炎是一種傳染疾病，人群的年齡是對這種傳染有影響的，一、二、三年級的學生年齡層次有差别，可能就會導緻各個年級學生得病機率的差異。此外這個方案還有第三個重大缺陷，那就是可能會對醫生形成心理上的誘導。如果按照這個方案執行下去，醫生們就是知道的，一、三年學生沒有接種疫苗，而二年級同學中有部分同學接種了疫苗。當時脊髓灰質炎的診斷還不太容易，如果醫生已經知道了這個疫苗接種方案，而且也提前知道這個疫苗在實驗室階段是管用的，那麼醫生在面對一年級學生時，一旦這個疾病還無法确診，那麼這個醫生就很可能根據“一年級學生沒有接種疫苗”“疫苗是有效的”這兩個提前的認知，就直接診斷這名一年級學生得了脊髓灰質炎。而且這種差別對待的方案，接種的學生本身心理也會受到影響的。

當時還有第五個方案，也就是最終執行并被采納了調查結果的方案。這個方案具體來說，就是在征得學生家長同意之後，仍舊會告訴家長：你即使同意接種疫苗，我給你家孩子接種的，也不一定是疫苗，而是一種看起來跟疫苗一模一樣的安慰劑，沒什麼副作用也沒有什麼效果。因為這個安慰劑跟疫苗長得一樣，是以醫生和學生都不知道到底接種的是疫苗還是普通的安慰劑，但是疫苗提供方是知道的，它對每一個藥品都加了編号，是以疫苗提供方知道哪些是安慰劑，哪些是疫苗。通過這樣的方式，實驗室實作了随機的方式接種疫苗，而且無論家境好壞，這個接種疫苗都是随機的。同時醫生們也不知道，到底是哪一些小孩接種了疫苗。這就規避了年齡、經濟條件等各種擾動，有助于确定脊髓灰質炎與疫苗之間真正的因果關系。

1954年，這個實驗大約有74萬名國小生參與。最終的實驗結果是，如果接種疫苗，孩子罹患脊髓灰質炎的機率大約是十萬分之28，如果不接種疫苗，患病機率大約是十萬分之77，二者相差一倍多。之後又經過各種努力，脊髓灰質炎疫苗在美國獲得了通過。

許多科學結論、政策評價都依賴于因果分析而不是相關分析。統計學能夠幫助我們證明那些我們所需要的因果關系。很多時候，真正的因果關系，不能簡單地建立在相關關系的基礎之上。還有很多科學問題，仍需要我們去發現真正的因果關系，這正是統計學可以提供資料收集以及分析方案的地方，也是統計學的魅力所在。

來源：光明網-《光明日報》《光明日報》（ 2019年03月30日 10版）

作者：朱利平教授，作者系中國人民大學統計與大資料研究院副院長、博士生導師，中國人民大學“傑出學者”特聘教授

大資料面前,統計學的價值在哪裡

1 統計學對大資料的意義

2 統計學是一門收集資料的藝術

3 實驗開始了

4 統計學是一門分析資料的藝術

繼續閱讀

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

在weka中內建自己的算法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark