天天看點

赤裸裸的統計學—讀書筆記

回想過往,我意識到讓我痛恨微積分課的不是數學,而是從來就沒有人想到要告訴我數學的意義是什麼。

相信我,技術細節十分重要(也十分有趣),但是如果你不知道它們的出發點是什麼,那麼擺在你面前的将會是一堆天書般的符号。如果連你自己都不相信學習統計學是一件有意義的事情,那麼你或許根本不會去關心所謂的出發點。

用資料說謊容易,但是用資料說出真相卻很難。

這對于概括場上進行的比賽非常有用。傳球效績指數是否起到了簡化問題的作用?是的,但這同時也反映了描述統計學的優勢和劣勢。僅憑一個數字,你就可以知道傑·卡特勒在與格林灣的那場比賽中敗給了亞倫•羅傑斯;但你卻無法從這個數字中讀出運動員在比賽中的運氣是好是壞;不知道他是否傳出了一個漂亮的過人球卻被愚蠢的隊友錯過了,導緻這個球最終被對方截獲;不知道他是否在比賽的某些關鍵時刻頂住壓力發揮出色(因為每一次的成功發球在統計時都被同等對待,不論是決定性的三次觸地還是比賽接近尾聲時那些毫無意義的發球);不知道那一場的防守是否糟糕透頂……讀不出來的資訊還有很多。

在美國,衡量一個學生的高中和大學學業表現的方法是計算平均成績點數(GPA),通俗點兒說就是學生在校的平均成績。如果一門課的成績為A,那麼就可以獲得4點,B是3點,C是2點,以此類推。當高中畢業生申請大學、大學畢業生找工作時,GPA就是評價他們學術潛力的一個友善快捷的名額。一個GPA為3.7的學生顯然要比另一個GPA隻有2_5的學生的實力強,這就使得GPA成為一個受人歡迎的描述性資料,不僅計算容易、了解容易,而且對不同學生進行比較也很容易。         但這一衡量名額并不完美。GPA沒有反映不同學生所選課程的難易程度,假設一個GPA為3.4的學生選的都是相對沒有挑戰性的課,而另一名GPA隻有2.9的學生的課程表裡盡是微積分、實體這類難學的課,我們能一口判定孰優孰劣嗎?我以前所在的高中就試圖解決這一問題,學校規定比較難學的課程會有額外的加分,這些課程如果期末成績為A,那麼就會有5點的獎勵,而非原來的4點。但這也帶來了新的問題,我的母親很快就反應過來,在新的GPA計算方法下,對于一個選了很多加分課程的學生來說(比如說我),其他普通課程就算做到最好,也就是拿到了A,最終的平均分也會被拉下來。

機率在有些情況下甚至可以被用來判斷考試作弊。一家由美國學術能力評估考試(SAT)的一位開發者創辦的考試安全公司,專注于提供“資料驗證”服務,為客戶尋找考試作弊的蛛絲馬迹。舉個例子,在學校或考點進行的考試,多名考生以同樣的答案答錯同一道題的情況是極少見的,通常發生的機率隻有不到百萬分之一,如果有類似的情況出現,該公司就會予以标記。其數學邏輯源自一個事實,即當大部分考生對某道題都給出了正确答案時,我們并不會感到大驚小怪,因為這是他們應該做的事情。這些考生有作弊的可能,但他們憑一己之力做對題的可能性更大。但是當這一群考生答錯題的時候,他們的錯誤答案不應該是完全一樣的,如果錯誤答案完全一樣,那麼他們就有可能是互相抄襲(或者通過短資訊分享答案)。此外,還有幾種情況會引起該公司的注意,比如在一場考試中,考生在難題上的正确率大大高于容易的題(這意味着他們有可能提前就知道答案);又或者在一場考試中,收上來的答題卡上“錯改對”的塗改痕迹要明顯多于“對改錯”(這意味着有可能是老師或監考人員在考試結束後對答題卡動了手腳)。

個人所得僅僅是将整個國家所有人的收入加起來再除以總人口數,我們無法從這個計算結果中得知各階級收入所占的比例,無論是1980年還是2010年。正如“占領華爾街”運動的示威者所指出的,處于收入排行榜頂端的那1%的人,他們收入的爆炸性增長能夠顯着地拉動個人所得水準的整體提升,但同時不需要往剩下的那99%的人的口袋裡多放一分錢。也就是說,在普通美國人的生活陷入水深火熱的同時,美國的個人所得依然能夠節節攀升。

現在讓我們回到那個更加重要的問題上來,談談美國中産階級的經濟健康狀況。當然如果我們能夠找到類似于擊球率這樣言簡意赅的,甚至更好的經濟衡量名額,那是最理想的,我們需要一個簡單且準确的數字,來說明一個典型的美國勞工最近幾年的經濟狀況,那些我們稱之為“中産階級”的人到底是更富了、更窮了,還是在原地踏步?一個合理的答案——肯定不會有“正确”的答案——就是,計算一代美國人(大約為30年)的個人所得,觀察其變化趨勢。個人所得是一個簡單的平均數:總收入除以人口數,這樣得出的結果就是美國的人均年收入從1980年的7787美元上升到2010年的26487美元。你看,真是一個值得慶祝的成就!         但隻有一個小問題,我的計算方法在技術上是正确的,但是對于我一開始提出的那個問題來說,卻是完全錯誤的。首先,上面的資料沒有考慮通貨膨脹因素,1980年的7787美元相當于2010年的約19600美元。但僅進行通貨膨脹因素的處理還不夠,更大的問題是,我們需要知道的是普通美國人的收入,而不是泛泛的個人所得,這兩者有本質上的差別。

在西雅圖的一家中檔酒吧的吧台前,坐着10個人,他們每年的平均收入都是3.5萬美元,也就是說,這組人的人均年收入為3.5萬美元。這時候,比爾•蓋茨走進了這家酒吧,肩膀上立着一隻會說話的鹦鹉(其實這隻鹦鹉與這個事例一點兒關系都沒有,之是以要提一下鹦鹉是想給這個案例增加點兒樂趣),假設他在這個案例中的年收入為10億美元。當比爾·蓋茨在吧台前的第11把発子上坐下後,這組人的平均年收入便迅速上升到了将近9100萬美元。很顯然,之前的那10個人絲毫沒有變得更富有(盡管比爾•蓋茨很有可能會幫他們付一兩次酒賬,但僅此而已)。如果我說吧台前的這群人平均年收入為9100萬美元,這句話在資料上是正确的,但同時也相當具有誤導性。這裡不是一個億萬富翁會經常光顧的酒吧,隻不過正好有一群收入不高的普通人坐在了比爾•蓋茨和他的會說話的鹦鹉旁邊。平均數必須對“異常值”有足夠的敏感性,這也是為什麼我們不應該用個人所得來衡量美國中産階級的經濟健康狀況。因為在收入配置設定的頂端,有着一群收入暴漲的美國人——公司高管、對沖基金經理,以及像德瑞克•基特這樣的運動員,普通美國人的收入會被這些巨富們的光環掩蓋,就像一群失意的普通人坐在比爾·蓋茨身邊一樣。         出于這個原因,我們還有一個資料可以用來表示配置設定的“中間位置”,但與平均數有所不同,這個中間位置就是中位數。中位數正好将一組數字一分為二,1/2位于中位數之前,另外1/2位于中位數之後(如果遇上一組數字的數量為偶數,那麼中位數就是中間兩個數的平均值)。回到剛剛酒吧的那個例子,原先坐在吧台前的10個人的年均收入中位數為3.5萬美元,當比爾•蓋茨和他的鹦鹉入座之後,這11個人的年收入中位數依然為3.5萬美元。如果你将他們按照收入多少來排座的話,那麼坐在第6把発子上的人的收入就代表了整組人收入的中位數。假如此時沃倫•巴菲特走了進來并坐在了比爾·蓋茨的身邊,他們的中位數還是不會改變。

無論是中位數還是平均數,要求出它們并不難,關鍵在于根據具體情況确定哪一個“中間位置”能夠更準确地反映問題的實質。與此同時,中位數還有一些有用的“親戚”,正如我們之前已經讨論過的,中位數将一組資料從中間分為兩部分,這組資料其實還可以繼續分為4部分,我們稱之為“四分位數”。第一四分位數由處于底部的25%的資料構成,往後的25%的資料構成了第二四分位數,以此類推。同樣的,收入配置設定資料還可以分為“十分位數”,每組包含10%的資料。如果你的收入屬于美國個人所得配置設定頂層的那10%,那麼這意味着你要比90%的美國人掙得都多。我們還可以細分下去,将收入資料分為100份,也就是“百分位數”,每個百分位數都代表1%的資料,也就是說,第一百分位數表示位于底部的1%的人的收入,第99百分位數代表收入配置設定資料中收入最高的那1%的人。

正态分布的“美”好比邁克爾·喬丹在球場上的力量、靈巧和優雅,它來自于一個事實,那就是我們通過定義就能夠清楚地知道,有多少數值位于平均值一個标準差的範圍之内(68.2%),有多少數值位于兩個标準差的範圍以内(95.4%),還有多少數值位于3個标準差的範圍以内(99.7%),以此類推。

描述統計學經常會比較兩個資料或數量。例如,我比我的哥哥高1英寸,今天的氣溫比曆史平均值高9攝氏度等。這些比較之是以易于了解,是因為我們大部分人都對其中所包含的數量機關并不陌生。當形容身高時,1英寸并不是很多,是以你可以推測我和我的哥哥的身高看上去其實差不多;相反的,無論是在一年中的哪個季節哪個時刻,9攝氏度都是一個非常引人注目的溫差,是以我們可以說那一天比平時要熱很多。但如果我告訴你,某品牌麥片中A配方的鈉含量要比B配方高31毫克,除非你恰好懂得很多關于鈉的知識(以及該品牌麥片的食用分量),否則上面這句話并不能給你帶來特别具體的資訊。又或者我對你說,我的外甥阿爾在2013年比2012年少掙了5.3萬美元,我是不是應該對他表示擔心呢?阿爾也許是一位對沖基金經理,5.3萬美元隻不過是他年薪的一個零頭。         在鈉含量和收入這兩個例子裡,我們都缺少背景資料。賦予這些比較型資料意義的最簡單的方法就是使用百分比。如果我跟你說,某品牌麥片A配方的鈉含量比B配方高了50%,我的外甥阿爾在2013年的收入與2012年相比減少了47%,是不是就更容易了解了?用百分比來表示變化,可以讓我們有一種用刻度測量的感覺

當連衣裙的價格為75美元時,新來的副經理将價格上調25%,這裡就是許多人容易犯錯的地方。上浮的25%參照的是連衣裙的新價格,而非最開始的價格,是以上漲的價格應該是25%x75美元=18.75美元,最後的售價為75美元+18.75美元=93.75美元(而不是很多人認為的100美元)。這個例子的關鍵在于,百分數變動表示的是某個數字相對于其他事物的變化值,是以我們最好先弄清楚其他事物到底是什麼。

我曾投資過大學室友開的一家公司。由于這是一家私營公司,是以在向股東披露資訊方面并沒有什麼硬性要求。轉眼幾年過去了,我的這筆投資的命運如何,我毫不知情,我的這位前室友對于這個話題也是隻字不提。最後,我終于收到了一封信,信上說公司的利潤相比前一年提高了46%。但到底提高了多少美元,信上沒寫,也就是說我還是完全不知道自己的投資到底表現如何。假設上一年公司赢利27美分——基本等同于沒有,那麼這一年公司的赢利就為39美分——還是基本等同于零,但就從27美分到39美分來說,公司的利潤的确上漲了46%,這一點沒有問題。如果告訴你公司兩年的累計赢利還不夠買一杯星巴克咖啡,那麼收到這樣的股東信件可真夠晦氣的。         但是,我的室友是這樣的人嗎?顯然不是。他最終把公司賣掉了,換回了數億美元的資金,我的那份投資的回報率也高達100%。但你還是不知道我最後賺了多少錢,因為我并沒有告訴你我最初投了多少錢,這不是更加能證明我的觀點嗎?讀到這裡,你是不是對什麼是“其他事物”有點兒感覺了?

首先,我們應該弄明白“精确”和“準确”這兩個詞之間至關重要的差別。這兩個詞不可以互相替代。“精确”反映的是我們描述事物的精度,比如在描述你從家到公司的距離時,“41.6英裡”就比“大約40英裡”更精确,當然比“相當長的一段路”更精确一些。如果你問我最近的加油站在哪裡,我會告訴你往東1.265英裡,這就是一個精确的回答。但問題也随之而來:如果加油站在西邊,那麼這樣的一個回答就是完全不準确的。也就是說,如果我告訴你:駕車大約10分鐘,當你看到一家熱狗售賣攤點時,加油站就在你的車右前方幾百碼的地方,如果你經過貓頭鷹餐廳,就說明你的車開過了。這樣的一個回答雖然沒有“往東1.265英裡”那麼精确,但顯然更好,因為我為你指明了前往加油站的正确方向。一個資料的準确與否表明了其與真相是否一緻,是以将“精确”和“準确”混為一談是要付出代價的。如果一個答案是準确的,那麼在這個基礎上當然是越精确越好;但如果答案從一開始就是不準确的,那麼再精确也毫無意義。

無論是平均數還是中位數,都是衡量一組資料的“中間位置”或“中心趨勢”。平均數就是所有資料求和之後再除以個數(3、4、5、6、102的平均數是24)。中位數就是一組資料最中間的那個點,有一半資料位于這個點之前,有一半資料位于這個點之後(3、4、5、6、102的中位數是5)。現在,聰明的讀者一定會注意到24和5之間存在着巨大的差異。是以,如果出于某種考慮,想要讓這組資料在描述時顯得數值大一些,那麼我會選擇求它們的平均數;但如果我想讓數值看上去小一些,我肯定會将關注點放在中位數上。

中位數的決定性特征——不考慮資料距離中間位置有多遠或是多近,而是關注它們是高于中間位置還是低于中間位置——反而成為它的弱點。與之相反,平均數恰恰是由資料分布決定的。從準确性的角度來看,平均數和中位數孰取孰舍,關鍵就在于這個資料分布裡的異常值對事實的真相是起到扭曲的作用,還是其重要的組成部分。再次強調,判斷比數學更重要。當然,沒有人強制你一定得選中位數或平均數,任何一個複雜綜合的資料分析都會包含這兩個資料。是以,當隻有其中一個資料出現的時候,你就要注意了,有可能隻是出于言簡意赅的考慮,但也有可能是某些人别有用心地想用資料“說服”你。

通貨膨脹。今天的1美元和60年前的1美元的價值是不一樣的:今天的1美元能買到的東西更少。由于通貨膨脹的存在,1950年花1美元能買到的東西在2011年可能要花9.37美元。是以,在沒有考慮通貨膨脹因素的情況下,任何有關1950年與2011年的金錢比較都是不準确的,而且比歐元與英鎊的比較更加離譜兒,因為歐元和英鎊的價差比1950年的美元與2011年的美元的價差還小。

談到學校的品質,這是一個必須予以衡量的關鍵問題,因為我們都希望獎勵并效仿“好”學校,懲罰或整頓“差”學校(具體到學校内部,我們在衡量教師的教學水準問題上也面臨類似的難題)。考核學校和教師最常用的方法就是看學生的考試分數,統考結束後,學生的優異成績就是教師和學校最好的金字招牌;與之相反的,糟糕的成績無疑會釋放出一個清晰的信号:相關教師應該被辭退,而且越早辭退越好。這樣看來,僅憑考試分數我們就能徹底改善公共教育系統了,對嗎?         錯。在評價教師和學校時,如果隻看考試分數是會鑄成大錯的。不同學校的學生,他們的背景和能力是很不一樣的,比如說,學生父母的教育程度和收入會對孩子的成績産生不可忽視的影響,不論孩子上的是哪所學校。在這裡,我們所缺少的那個資料恰好就是解答這個問題唯一需要的:學生的學業表現有好有差,但其中有多少比例要歸功或歸咎于學校(或所在的班級)呢?         從小就生活在衣食無憂、書香門第家庭裡的孩子,一般來說從進入幼稚園的第一天起就有可能會比别的孩子的成績好。相反的情況同樣成立,有些學校的學生天資平平,雖然教師教得很好,但是學生的成績還是處在一個低水準上,如果沒有這些老師的付出,那些學生的成績會更加慘不忍睹。

紐約州就因為類似的統計陷阱而栽了大跟頭,付出了慘痛的代價。州政府之前出台了“記分卡”制度,對接受心髒搭橋手術的病人的死亡率進行統計,以便讓公衆在選擇心髒科醫生時有一個參考。這似乎是一個完全合情合理,而且有所幫助的描述統計學在政策制定過程中的應用。心髒搭橋手術是治療心髒病最常用和有效的方法,心髒病人在搭橋手術過程中的死亡比例當然是一個非常重要的資料,而作為個人根本沒有辦法了解到确切資料,是以政府出面收集并向公衆公開這一資料是合乎情理的。但就是這麼一個“好”政策,卻導緻了更多病人的死亡。         心髒科醫生肯定會在意他們的“記分卡”。但是對于一個外科醫生來說,降低病人死亡率最簡單的方法并不是降低病患死亡人數,因為大部分醫生在救死扶傷方面已經竭盡全力了。降低死亡率最簡單易行的方法是拒絕為那些病況最嚴重的病人動手術。羅徹斯特大學醫學與牙醫學院的一項調查表明,以服務病人為初衷的記分卡,到頭來反而會給病人造成傷害:在參與調查的心髒科醫生中,有83%的醫生表示正是由于公開了死亡率資料,一些本來可以從搭橋手術中獲益的病人最終沒能被安排進行手術;79%的醫生表示收集并公開死亡率資料或多或少地影響了他們的治療決策。這一看似有用的描述性資料存在一個可悲的沖突,而心髒科醫生也隻能理性地接受并釆取自己的對策,就是讓那些最需要心髒搭橋的病人遠離手術台

面對《美國新聞與世界報道》收集的所有資料,我們不知道這些排名到底是想給那些即将跨入大學校門的高中畢業生們哪方面的指導。站在學生的立場,最值得關注的方面應該是學業本身:如果我申請了這所大學,我能在學業上獲得怎樣的幫助?橄榄球迷聚在一起時經常會抱怨傳球效績指數的構成,但卻沒有人否認其組成部分——完成率、碼數、觸地得分和截球——同樣是評估一名四分衛的整體表現不可或缺的重要參考。但回到大學排名上來,情況就完全不同了。《美國新聞與世界報道》過于強調“輸人”(例如,錄取了哪些學生、教職員工的薪資待遇、全職教授所占的比例等),反而忽略了教學“輸出”,除了僅有的兩個例外——新生留級率和畢業率,但實際上就連這兩個名額也不是衡量教學品質的。正如邁克爾·麥弗遜所指出的:“從這份排名中,我們無從知曉進入某所大學經過4年的學習之後,學生的能力是否提高了,他們的知識是否增長了。”

例如,身高特别高或矮的人的體重一般也會特别重或輕)

找幾個跟你有相同趣味的人并讓他們向你推薦一些電影。既然你那麼愛看我喜歡的電影,厭惡我認為不好看的電影,那麼你覺得喬治•克魯尼的新片怎麼樣?         這就是相關性的真谛。

機率并不是确定的。你不應該購買彩票,但你依然有可能通過購買彩票發财。是的,機率學能夠幫助我們揪出作弊者、追蹤大壞蛋,但若使用不當,我們就有可能把無辜的人送進監獄。

沒有辦法告訴你假如那1%的情況發生,事态會有多嚴重。很少有人會關注“尾部風險”(位于分布曲線末尾的小機率事件),以及這些小機率風險所帶來的災難性後果。(如果你從酒吧出來打算回家,雖然你的血液中酒精含量隻有0.15,撞車死亡的機率還不到1%,但酒後駕車依然是一個不明智的決定。)更甚的是,許多公司還天真地以為自己對那些小機率風險已經作了充足的準備,這無疑是雪上加霜。美國财政部前部長鮑爾森解釋說,許多公司覺得隻要出售資産,就能在很短的時間内籌集到現金。但危急關頭,幾乎所有公司都需要現金,這些公司全都在想辦法出售相同類型的資産,從風險管理的角度看,這就像一個人說:“有災難降臨?那也沒必要事先儲備淨水,到時候隻需要去超市買幾瓶礦泉水就行了。”可是當小行星真的撞上了你所在的小鎮,生活在這裡的其他5萬名居民也想着要去超市買水,那麼等你趕到超市的時候你會發現,超市的玻璃已經被砸了,貨架上什麼東西都沒有。

獨立的事件渾然不覺,甚至還将它們作為相關事件進行處理。假設你正在一家裡(雖然從統計學的角度看,你根本就不應該出現在這種地方),你會看到賭客們紅着眼睛盯着骰子或撲克牌,嘴裡念念有詞“總該輪到我赢了吧”。如果輪盤球已經連續5次停在黑色區域了,有人就會想當然地認為下一次肯定會停在紅色區域,大錯特錯!輪盤球停在紅色區域的機率一直都沒變,應該是16/38,這就是“賭徒謬論”。事實上,就算你連續抛1000000次硬币,并且結果全都是正面朝上,第1000001次抛硬币出現反面的機率依然為1/2。兩個事件的統計獨立性的定義正是其中一個事件的結果對另一個事件的結果不存在任何影響。就算你覺得從統計學的角度來解釋不夠有說服力,你也可以從實體的角度問問自己:一枚硬币連續抛幾次的結果都是反面朝上,怎麼做才能使它下一次抛出的結果是正面朝上?

有91%的籃球迷認為,當球員連續兩三次投籃成功後再次投中的機率要高于他連續投失兩三次球後投籃命中的機率。這篇關于“手感”的論文告訴我們,人們腦海裡的觀念和事實往往存在差異,論文作者寫道:“人們對于随機性的直覺感受與機率的相關定律之間存在着鴻溝。”我們自認為看到了規律,可實際上或許根本不存在規律。

為了證明這一相同的論點,我還和我的學生進行過一個實驗。班級的人數越多,效果越好。我讓班上所有人都拿出一枚硬币,并從座位上站起來,我們一起抛硬币,硬币正面朝上的學生必須坐下。假設我們一開始有100位學生,在第一次抛硬币結束之後,有大約50人坐下;然後我們開始第二次抛硬币,之後還剩下約25位學生站着;然後是第三次、第四次……通常最後總是會剩下一位學生在連續5次或6次得到硬币反面朝上的結果後,依然站在那裡,我會在這個時候走到這位同學的身邊問他“你是怎麼做到的?”、“你平時都做些什麼特殊訓練,可以連續這麼多次都做到反面朝上?”、“你是不是吃了什麼特别的東西?”等,這些問題惹得全班同學哈哈大笑,因為他們目睹了整個過程,他們知道這位抛硬币得到6次都是反面結果的同學并沒有什麼特殊的技能,一切隻是巧合。但如果脫離了這樣一個環境,當我們目睹一些異常的事件發生時,我們總是會想:“沒那麼巧吧?背後肯定有什麼原因。”但事情偏偏就是這麼巧。

繼續閱讀