天天看點

統計學入門 - 20 統計學高手的十個小貼士

作者:Engineer Fu

第20章 統計學高手的十個小貼士

這本書不僅關于了解媒體和工作場所中遇到的統計資料;更重要的是深入挖掘,檢驗這些統計資料是否正确、合理和公正。面對當今資訊爆炸,你必須保持警惕——并且有點懷疑——因為許多你找到的統計資料要麼是錯誤的,要麼是誤導性的,無論是出于錯誤還是設計。如果你不對所消耗的資訊進行批判性的評價,無論是在正确性、完整性還是公正性方面,那麼誰會呢?在這一章中,概述了十個檢測研究人員和媒體常見統計錯誤的小貼士,以及避免犯這些錯誤的方法。

找出誤導性圖表

大多數圖表包含了清晰、簡潔、公正地傳達觀點的重要資訊。然而,許多圖表提供不正确、标簽錯誤或誤導性的資訊;或者它們簡單地缺乏讀者在對所呈現的内容做出關鍵決策時所需的重要資訊。這些缺陷中有些是偶然發生的;另一些則是刻意設計的,希望你不會注意到。如果你能在思考任何結論之前發現圖表的問題,你就不會被誤導性的圖表所蒙蔽。

圖20-1展示了四種重要的資料展示類型的示例:餅圖、條形圖、時間圖和直方圖。在本節中,指出了這些類型的圖表如果制作不當可能導緻你産生誤導的方式。(有關正确制作圖表和識别誤導性圖表的更多資訊,請參見第6章和第7章。)

統計學入門 - 20 統計學高手的十個小貼士

餅圖

餅圖就是其名所示的樣子:圓形(餅狀)圖,被分割成表示落入不同組的個體百分比(相對頻率)的各個扇形。這些組代表一個分類變量,比如性别、政黨或就業狀态。圖20-1a是一個顯示某一問題(我們稱之為問題1)上選民意見的餅圖。

以下是如何深入了解餅圖并測試其品質的方法:

✓ 確定百分比加起來等于100%,或接近100%(任何舍入誤差應該很小)。

✓ 當看到餅圖中有一個被稱為“其他”的扇形時要小心;這是一個包羅萬象的類别。如果“其他”扇形太大(比其他扇形都大),那麼餅圖就過于模糊。另一方面,有許多微小扇形的餅圖會給你資訊過載。

✓ 注意到與三維(“爆炸”)餅圖相伴随的扭曲,其中最靠近你的扇形看起來比實際更大,這是由于其呈現角度導緻的。

✓ 尋找報告的構成餅圖的個體總數,這樣你就可以确定在分割成扇形之前樣本有多大。如果資料集的規模(受訪者數量)太小,那麼這些資訊就不夠可靠。

條形圖

條形圖與餅圖相似,不同之處在于它不是圓形,而是用條形表示每個組,條形的高度表示該組中個體的數量(頻率)或百分比(相對頻率)。圖20-1b是一個以相對頻率為風格的條形圖,顯示了某一問題(我們稱之為問題1)上選民的意見;其結果與圖20-1a中顯示的餅圖相對應。

在檢查條形圖時:

✓ 檢查樣本大小。如果條形表示頻率,您可以通過對它們求和來找到樣本大小;如果條形表示相對頻率,您需要知道樣本大小,以了解有多少資料用于制作圖表。

✓ 考慮由條形的高度表示的機關以及結果在這些機關方面的含義。例如,它們是顯示犯罪總數,還是犯罪率(也稱為每人犯罪總數)?

✓ 評估顯示計數(或百分比)的軸的起始點,并注意極端值:如果條形的高度從200到300,但計數軸從0開始,條形的高度看起來不會有很大不同。但是,如果計數軸上的起始點是200,基本上是裁掉了所有條形的底部,而剩下的差異(從0到100)會顯得比它們原本更引人注目。

✓ 檢視顯示計數(或百分比)的軸上的值的範圍。如果條形的高度範圍從6到108,但軸顯示從0到500,圖表将有很多的空白空間,條形之間的差異變得難以辨識。然而,如果軸從5到110幾乎沒有空間,條形将被拉伸到極限,使得組之間的差異看起來比它們應該的要大。

時間圖表

時間圖表顯示數值變量随時間變化的情況(例如,股票價格、汽車銷售或平均溫度)。圖20-1c是一個示例,顯示了2002年到2010年每兩年選民中“贊成”的百分比。

在檢視時間圖表時,請注意以下幾個問題:

✓ 關注垂直軸(數量)和水準軸(時間線)上的刻度;通過簡單地改變刻度,可以使結果看起來比實際情況更或更不引人注目。

✓ 考慮圖表所描繪的機關,并確定它們在比較時間序列時是公平的;例如,金額是否已經根據通貨膨脹進行了調整?

✓ 警惕那些試圖解釋趨勢原因的人,而沒有額外的統計資料支援他們的說法。時間圖表通常顯示正在發生的事情。為什麼會發生是另一回事!

✓ 注意時間軸沒有标記均勻間隔跳躍的情況。當資料缺失時,這種情況經常發生。例如,時間軸可能在2001年、2002年、2005年、2006年、2008年之間有均等的間隔,而實際上它應該顯示在沒有資料的年份留下空白。

直方圖

直方圖是一種根據數值變量(例如年齡、身高、體重或收入)将樣本分組的圖表,顯示每個組中的個體數量(頻率)或百分比(相對頻率)。圖20-1d是一個以頻率為樣式的直方圖,顯示了某次選舉中選民的年齡分布。

關于直方圖,有一些需要注意的事項包括:

✓ 關注垂直軸(頻率/相對頻率)使用的刻度,特别留意通過使用不适當的刻度誇大或減少結果。

✓ 檢視垂直軸上的機關,看它們是否報告頻數或相對頻數;如果它們是相對頻數,您需要樣本大小來确定您正在檢視多少資料。

✓ 檢視水準軸上數值變量的分組使用的刻度。如果組基于小區間(例如0-2、2-4等),則柱形的高度可能看起來會很不平滑且過于波動。如果組基于大區間(例如0-100、100-200等),則資料可能呈現比實際情況更為平滑的外觀。

揭示資料的偏倚

在統計學中,偏倚是系統誤差的結果,它會高估或低估真實值。例如,如果我使用一把尺寸測量植物,而那把尺寸短了半英寸,那麼我的所有結果都是有偏倚的;它們都系統性地低于其真實值。

以下是一些最常見的偏倚資料的來源:

✓ 測量儀器可能存在系統性誤差。例如,警察的雷達槍可能顯示你以76英裡的時速行駛,而你知道你隻是以72英裡的時速行駛。或者,校準不良的天平可能總是多算5磅你的體重。

✓ 研究的設計方式可能導緻偏倚。例如,一個調查問題問:“你是否曾經不同意政府的意見?”将高估對政府普遍不滿的人的百分比。(有關在調查中減少偏倚的方法,請參見第16章。)

✓ 個體樣本可能不代表感興趣的總體,例如,通過僅僅去校園圖書館來研究學生的學習習慣。(更多資訊,請參見本章後面的“識别非随機樣本”一節。)

✓ 研究人員并不總是客觀的。假設在一項藥物研究中,一組患者服用糖丸,另一組患者服用真正的藥物。如果研究人員知道哪組患者服用了真正的藥物,他們可能會無意中更關注這些患者,以檢視它是否起作用;他們甚至可能在患者身上投射結果(比如說:“我打賭你感覺好多了,對吧?”)。這會對藥物産生有利的偏倚。(有關建立良好實驗的更多資訊,請參見第17章。)

要發現有偏倚的資料,要審查資料是如何收集的。詢問有關參與者選擇方式、研究的進行方式、使用了哪些問題、使用了哪些治療方法(藥物、程式、療法等)以及誰知道了它們、使用了哪些測量儀器以及它們是如何校準的等問題。尋找系統性錯誤或偏袒,如果發現太多,可以忽略這些結果。

尋找誤差範圍

"誤差"這個詞有點貶義,好像誤差總是可以避免的東西。在統計學中,情況并非總是如此。例如,統計學家所謂的抽樣誤差總會發生,每當有人嘗試使用除整個總體以外的任何東西來估計總體值時,就會發生這種誤差。僅僅是從總體中選擇樣本就意味着你排除了某些個體,這意味着你将無法獲得精确的、确切的總體值。不過别擔心。記住,統計學意味着永遠不必說你是确定的 — 你隻需要接近。而且如果樣本足夠大,抽樣誤差将會很小(前提是資料是好的)。

要評估統計結果,你需要一個準确度的度量 — 通常是通過誤差範圍。誤差範圍告訴你研究者期望她的結果在樣本之間有多大的變化。(有關誤差範圍的更多資訊,請參見第12章。)當研究者或媒體沒有報告誤差範圍時,你會對結果的準确性産生疑慮,或者更糟的是,你可能隻是假設一切都很好,而在許多情況下,事實并非如此。

在檢視統計結果時,如果正在估計一個數字(例如,所有美國人中認為總統工作出色的百分比),請始終檢查誤差範圍。如果沒有包含在内,那就主動要求提供!(或者如果提供了足夠的其他相關資訊,你可以使用第13章中的公式自己計算誤差範圍。)

識别非随機樣本

如果你試圖研究一個總體,但隻能研究其中的一個樣本,你如何確定你的樣本代表總體?最重要的标準是以随機方式選擇樣本;也就是說,進行随機抽樣。你知道一個樣本是随機的,如果它被選中的機會與其他同樣大小的可能樣本一樣。 (就像從帽子裡抽名字一樣。)

然而,許多調查并不基于随機樣本。例如,電視民意調查要求觀衆“緻電給我們,告訴我們你的意見”并不代表随機樣本。實際上,它們根本不代表樣本;在進行抽樣時,你是從總體中選擇個體的;而在電話調查中,個體是自己選擇的。

由于倫理原因,實驗(特别是醫學研究)通常不能涉及随機選取的個體。你不能打電話告訴某人:“你被随機選中參與一項睡眠研究。你需要明天到我們的實驗室并在那裡住兩個晚上。”這類實驗是由自願參與的受試者進行的 —— 他們并非首先被随機選擇。

但即使你不能随機選擇實驗的受試者(參與者),如果你以不同的方式将随機性納入其中 —— 通過将受試者随機配置設定到治療組和對照組 —— 你仍然可以得到有效的結果。如果組是随機配置設定的,它們很可能非常相似,除了接受的治療不同。這樣,如果你在組的結果中發現了足夠大的差異,你可以将這些差異歸因于治療,而不是其他因素。

在對來自調查的統計結果做出任何決定之前,檢視個體樣本是如何被選擇的。如果樣本沒有随機選擇,對結果持保留态度(參見第16章)。如果你正在檢視實驗的結果,請了解受試者是否被随機配置設定到治療組和對照組;如果沒有,請忽略結果(參見第17章)。

查找缺失的樣本大小

在評估統計資料的準确性時,資訊的品質和數量都很重要。投入統計資料的好資料越多,統計資料的準确性就越高。關于品質問題,在本章前面的“發現有偏資料”一節中已經涉及到。當品質問題得到解決後,你需要評估資訊的準确性,而為此你需要檢視收集了多少資訊(即你需要知道樣本大小)。

小樣本會使結果不夠準确(除非你的總體本來就很小)。當細節揭示出一項研究是基于小樣本時,許多标題并不完全是它們看上去的樣子。甚至更糟糕的是,許多研究根本就不報告樣本大小,這應該讓你對結果持懷疑态度。(例如,一則舊的口香糖廣告聲稱,“接受調查的五位牙醫中有四位推薦[這款口香糖]給他們的患者。”如果他們确實隻問了五位牙醫呢?)

不要過多考慮這個問題,但根據統計學家(對精度挑剔)的說法,5中的4和5,000中的4,000是截然不同的,盡管這兩個分數都等于80%。後者代表一個更為精确(可重複的)的結果,因為它基于更高的樣本量。(當然,假設這是良好的資料。)如果你曾經想知道數學和統計學的差別,這就是答案!(第12章有關于精度的更多内容。)

然而,更多的資料并不總是更好的資料 —— 這取決于資料的收集品質(見第16章)。假設你想了解市民對市議會提案的意見。一個小的随機樣本,攜帶着良好收集的資料(例如,從城市地圖中随機選擇的少數家庭的郵寄調查),比一個大的非随機樣本,帶有收集不良資料(例如,在城市經理的網站上釋出網絡調查并要求人們回應),要好得多。

在對統計資訊做出決策之前,始終查找樣本大小。樣本大小越小,資訊越不精确。如果文章中缺少樣本大小,請擷取該研究的完整報告副本,與研究人員聯系,或與寫文章的記者聯系。

發現被誤解的相關性

每個人都想尋找變量之間的聯系;例如,哪個年齡組更有可能投票給民主黨?如果我攝入更多元生素C,我是不是更不容易感冒?整天盯着電腦螢幕會對我的視力産生什麼影響?當你考慮變量之間的聯系或關聯時,你可能會想到相關性。是的,相關性是最常用的統計方法之一,但它也是最容易被誤解和濫用的,尤其是在媒體中。

有關相關性的一些重要觀點如下(有關所有額外資訊,請參見第18章):

✓ 相關性的統計定義(表示為r)是衡量兩個數值變量之間線性關系的強度和方向的名額。相關性告訴你變量是否一起增加或相反方向增加,以及該模式在資料集中的一緻程度。

✓ 統計術語“相關性”僅在兩個數值變量的背景下使用(例如身高和體重)。它不适用于兩個分類變量(例如政黨和性别)。例如,投票模式和性别可能存在關聯,但使用“相關”一詞來描述它們的關系并不是“統計上的正确”。你可以說兩個分類變量是相關的。

✓ 如果兩個數值變量之間存在強相關性和散點圖,你應該能夠通過這些點繪制一條直線,而這些點應該緊密地落在直線附近。如果一條線不能很好地拟合資料,這兩個變量可能不會有強相關性(r),反之亦然。 (有關線拟合,也稱為線性回歸的資訊,請參見第18章。)弱相關性意味着兩個變量之間不存線上性關系,但這并不一定意味着這兩個變量根本沒有關系。它們可能有一種線性關系以外的其他類型關系。例如,細菌的數量随着時間呈指數倍增(它們的數量爆炸性增加,倍增速度越來越快)。

✓ 相關性并不自動意味着因果關系。例如,假設蘇珊根據她的觀察報告說,喝含有甜味劑的飲料的人比不喝的人更容易長痘痘。如果你是一個喝甜味劑飲料的人,不要急着爆發!這種相關性可能隻是她觀察到的人群中的一種偶然巧合。最多,它意味着需要進行更多的研究(超出觀察範圍)才能在含有甜味劑的飲料和痘痘之間建立任何聯系。(蘇珊可以閱讀第17章,了解如何設計一個好的實驗。)

揭示混雜變量

混雜變量是一種未包含在研究中但其影響可以影響結果并導緻混淆結論的變量。例如,假設一位研究員報告說吃海藻有助于延長壽命,但當你檢視這項研究時,你發現它是基于那些飲食中經常攝入海藻且年齡超過100歲的人的樣本。當你閱讀這些人的采訪時,你發現了一些他們長壽的其他秘訣(除了吃海藻):他們每天平均睡8個小時,喝很多水,每天鍛煉。那麼是海藻讓他們活得更久嗎?你無法确定,因為有幾個混雜變量(鍛煉、水攝入和睡眠模式)也可能起到了作用。

控制混雜變量的最佳方法是進行一個設計良好的實驗(請參見第17章),其中涉及設定兩個在盡可能多方面相似的組,唯一的差別是一個組接受了指定的處理,而另一個組接受了對照處理(假處理、無處理或标準的非實驗性處理)。然後,你比較兩組的結果,将任何顯著差異歸因于處理(在理想情況下,不涉及其他因素)。

這項海藻研究不是一個設計良好的實驗;它是一項觀察性研究。在觀察性研究中,不存在對任何變量的控制;人們隻是被觀察,資訊被記錄。觀察性研究對于調查和民意調查非常有用,但不适用于顯示因果關系,因為它們不控制混雜變量。設計良好的實驗提供了更為有力的證據。

審查數字

僅因為某個統計數字出現在媒體中,并不意味着它是正确的。事實上,錯誤時常發生(無論是出于錯誤還是有意為之),是以要時刻保持警惕。以下是一些建議,幫助你發現錯誤的數字:

✓ 確定所有數字加起來等于其報告的值。對于餅圖,請確定所有百分比加起來等于100%(受到小幅度四舍五入誤差的影響)。

✓ 仔細檢查即使是最基本的計算。例如,一個餅圖顯示大約83.33%的美國人支援某個問題,但文章報告稱“每8個美國人中有7個”支援這個問題。這兩種說法是一樣的嗎?不是的;7除以8等于87.5%,如果你想要83.33%,那就是6中的5。

✓ 檢視調查的回應率;不僅僅滿足于參與者的數量。(回應率是回應的人數除以受訪總人數乘以100%。)如果回應率遠低于50%,結果可能存在偏見,因為你不知道未回應的人會有什麼看法。(有關調查及其回應率的完整資訊,請參見第16章。)

✓ 質疑所使用的統計類型,以确定其是否合适。例如,假設犯罪數量上升,但人口規模也增加。媒體不僅要報告犯罪數量,還需要報告犯罪率(每人口的犯罪數量)。

統計學是基于公式的,這些公式将你提供的數字進行計算,輸出你要求它們輸出的結果。這些公式并不知道最終的答案是否正确。當然,背後的人應該更清楚。那些不清楚的人可能會犯錯誤;那些清楚的人可能仍然會故意篡改數字,希望你察覺不到。作為資訊的消費者(也稱為合格的懷疑者),你必須采取行動。最佳政策是提出問題。

報告選擇性報道

在研究中,研究人員報告了他的一個具有統計顯著性的結果,卻沒有提到其他25個分析的結果,而這些分析都沒有顯著性。如果你知道所有其他的分析結果,你可能會想知道這一個統計顯著的結果是否真的有意義,或者僅僅是由于偶然事件(就像猴子在打字機上随機敲擊最終會寫出莎士比亞的作品的想法)。這是一個合理的問題。

對資料進行分析直到找到某種結果的誤導性做法是統計學家稱之為資料搜尋或資料釣魚的做法。舉個例子:假設研究員鮑勃想弄清楚是什麼原因導緻一年級學生在學校裡争論這麼多(他一定不是父母,否則他甚至不會嘗試觸及這個問題!)。他設定了一個研究,觀察一個月裡一群一年級學生的一舉一動。他回到辦公室,輸入了所有的資料,點選一個按鈕,要求計算機執行人類已知的所有分析,然後坐在椅子上迫不及待地等待結果。畢竟,有了這麼多的資料,他一定會找到一些東西。

在研究結果中翻閱了好幾天後,他終于找到了寶藏。他沖出辦公室告訴老闆,他必須釋出一份新聞稿,說一項開創性的研究發現,一年級學生在以下情況下争論最多:1)一周的最後一天以字母y結尾,或者2)他們教室的水族館裡的金魚穿過沉沒的海盜船的洞。幹得好,研究員鮑勃!我有一種感覺,觀察了一個月的一群一年級學生讓他對資料分析技能産生了影響。

底線是,如果你收集足夠的資料并進行足夠長時間的分析,你一定會找到一些結果,但那些結果可能是完全無意義的,或者隻是其他研究人員無法重複的偶然事件。

如何保護自己免受由于資料釣魚而導緻的誤導性結果?了解有關研究的更多細節,從總共進行了多少次測試開始,以及這些測試中有多少次是不顯著的。換句話說,盡量擷取全面的資訊,這樣你就能正确了解顯著性結果。

為了避免被某人的資料釣魚所迷惑,不要僅僅接受你聽到的第一個結果,特别是如果它成為重大新聞和/或似乎有點可疑。與研究人員聯系,要求更多關于他們資料的資訊,或者等待看看其他研究人員是否能夠驗證和複制他們的結果。

揭示個别案例

啊,個别案例——有史以來對公衆觀點和行為産生的最強烈影響之一。但也是最缺乏有效性的之一。個别案例是基于單個人的經驗或情況的故事或結果。例如:

✓ 中獎兩次的女服務員。

✓ 學會騎自行車的貓。

✓ 在新奇迹洋芋飲食中兩天瘦了一百磅的女人。

✓ 聲稱使用一種她是代言人的非處方染發劑的名人(是的,沒錯)。

個别案例成為了極具轟動性的新聞;越是轟動,越好。但是轟動的故事是生活常态之外的特例。它們并不發生在大多數人身上。

你可能認為你對個别案例的影響無法觸及。但在你讓一個人的經曆影響你的那些時候呢?你的鄰居喜歡他的網際網路服務提供商,是以你也嘗試了。你的朋友在某個品牌的汽車上有了糟糕的經曆,是以你不費心試駕它。你父親認識有人因為被安全帶困在車裡而死于車禍,是以他決定永遠不戴安全帶。

雖然有些決定可以基于個别案例做出,但你做出的一些更重要的決定應該基于來自設計良好的研究和仔細研究的真實統計資料。

個别案例實際上是一個隻有一個樣本的資料集。你沒有資訊來進行比較,沒有統計資料來分析,沒有可能的解釋或資訊可供參考——隻有一個單一的故事。不要讓個别案例對你産生太大的影響。相反,依賴于科學研究和基于代表其目标人群的大量随機個體的統計資訊(不僅僅是單一情況)。當有人試圖通過告訴你一個個别案例來說服你時,隻需說:“給我看資料!”