天天看點

統計數字會說謊

統計數字會說謊

   在我們的工作、生活中,經常能接觸到各種各樣的資料、調查結果,這些資料和結果都是正确的嗎?哪些資料有誤導性?哪些資料有限定條件?哪些資料不可以比較?本次分享告訴大家如何解讀資料,如何看透資料的真相!

【案例一】樣本的代表性

1936年《青年文摘》對美國總統大選的結果進行預測,結果失敗,問題出在調查方法上(調查對象是其讀者,調查方法為電話調查)。1936年有能力購買電話和訂閱雜志的人并不能代表所有的選民,至少在經濟上,他們是一個極其特殊的群體,是有偏的,事實後來證明他們有許多人是共和黨的選民。但是如果調查選擇的樣本是代表性的,能代表全部選民那麼調查就能得到準确的預測結果。

l  蓋洛普為什麼預測美國大選的結果很準确?他們采用抽樣調查方法,在全國各州按比例選擇調查對象對總體有很強的代表性 。

統計數字會說謊

【案例二】樣本量是否足夠?

我們來調查“喜歡大番茄的人多還是小番茄的人多”,究竟調查10個人、20個人還是100個人得出的結論是準确的呢?我們選擇多少個人作為調查對象,即需要多少個樣本量的決定因素有很多,總體的大小,總體内部的變異程度等等。總體的大小很容易了解,調查全市市民和調查一個班級哪個需要的樣本量大呢?顯然是前者。至于總體内部的變異程度,舉個例子,如果總體隻有100個人且這100個人差異不大,或許十幾個樣本就已經足夠了,但是如果這100個人每個人差異性都很大呢?是不是要選取更多的樣本才能更真實反映100個人的情況呢?

舉一個用研的例子:對于整個淘寶網買家的調研,基本上我們要保障1500的樣本量,而對于某一類目賣家的調研可能幾百就足夠了(比如機票等類目賣家較少)。

ps:抽樣經驗:1500以上的樣本量基本就能很好地代表總體,無論總體有多大。

統計數字會說謊

【案例三】敏感、隐私話題

對于一些敏感、隐私的話題,被調查者對于你的提問可能不會反映最真實的情況。如果采納這些不真實的資訊,會使得調查結果不準确,比如圖中詢問“您更喜歡閱讀哪本雜志?”,可能有很多人明明更喜歡閱讀《東周刊》卻選擇《鳳凰周刊》,原因在于擔心選擇前者可能會被大家認為是一個喜歡偷窺隐私的人。是以對于敏感隐私的話題,不必面對面調查,可以采用集體填答問卷的形式或者電話調查的方式,并且說明我們的保密原則,結果就會好很多。另外有些隐私話題不用直接詢問,可以從不同角度确認這些資訊,例如詢問“每月您的消費支出水準”,我們可以通過詢問“購買哪些品牌的衣服”“經常去哪兒就餐”等問題從側面收集資料。

統計數字會說謊

【案例四】平均數的陷阱

假設你是某個小型制造企業的3個合夥人之一,到了月底給企業的90個職工發了99000元,你和合夥人每人共獲得5500元的工資,最後還餘下21000元作為利潤可供你們3個合夥人平分。你會選擇哪一種表述公示呢? 肯定是後者,因為顯得收入配置設定更公平,但其實每個人拿到的錢還是和前者一樣。是以需要特别注意這些平均數背後的真相。

統計數字會說謊

l  國家統計局釋出《2009年國民經濟和社會發展統計公報》,其中稱“70個大中城市房屋銷售價格上漲1.5%”,數字公布之後,引起了代表委員和社會輿論的廣泛質疑。從數字看起來房價上漲很少,但為何與我們的感受不一緻,主要原因還是在于平均數,這一數字對房屋種類、地區、地段、樓層、朝向、時點等因素而差異較大的樣本進行綜合平均統計,過度消除了價格變化。

l  統計局公布1月cpi數字,因為春節假期央行再度加息,市場曾預期1月cpi必将再創新高,甚至有望接近6%數字,可實際數字4.9%卻讓人頗為意外。原因就是統計局cpi統計的新權重:居住類、醫療保健類、娛樂教育文化類價格權重上升,食品類權重下降。而食品類價格卻是百姓感受最明顯的一個名額,是以平均時權重差異也使得我們感受與數字之間産生差異。

【案例五】一樣的資料,不一樣的圖形

為了讓沒有直接接觸資料的人也能直覺地感受到其中的一些資訊,人們發明了各種各樣漂亮的統計圖表。但是就是“客觀”的圖表裡面也存在着各種各樣的陷阱。在制作統計圖表時,一個常用的欺騙手法便是改變統計圖形的坐标尺度,進而改變了整個圖形的增長趨勢或是陡峭程度。

統計數字會說謊

天平兩側的圖是用同一組數字繪制的,隻是改變了縱坐标的刻度範圍,卻使得兩幅圖看起來具有完全不同的增長趨勢。

統計數字會說謊

此圖反映了某年9月27日某時的黃金價格走勢。上面兩幅圖描述的是相同時間段的黃金價格走勢,顯然,左邊的金價急升更容易讓人産生激動的心情。即使标出了橫縱軸的刻度,這兩幅圖給普通人留下的第一印象也大不一樣。

【案例六】結論的使用範圍、限定條件

對于這一則廣告,從廣告詞來看,此感冒藥效果很好,但是在這裡我們需要問兩個問題:在人的喉嚨裡會不會發揮作用?這些細菌是感冒細菌嗎?顯然如果廣告詞沒有标明結論的限定條件,我們并不能就此認為此感冒藥到底有何效果。是以我們特别要關注有些結論的限定條件,并不是所有條件下結論都成立。

統計數字會說謊

正是由于結論受到很多條件的限制,我們在調查中如果要得到較為穩定的結論,則需要探究一些較為穩定的現象。使用者的行為經常在發生變化,如果我們僅僅是關注使用者的行為,可能我們要不停地去做重複的調查,但是除了行為外,其實很多使用者需求層面的東西是比較穩定的,我們的調研也會重點關注這些方面,行為會變但是需求層面的東西會比較穩定,是以我們不會僅僅設計一些很操作層面的問題,拿酒店頻道舉例,我們不會隻提問“您為什麼在查詢之後預訂我們的酒店”,我們還會詢問“您經常去哪些管道預訂酒店”“您經常住哪一類型的酒店”等等,從各個方面去看使用者最内在的需求。

【案例七】口徑不同的數字不可比較

如果告訴圖中所示資訊,你肯定會認為美國海軍的死亡率低于紐約市民。但是大家想一下:美國海軍與紐約市民的年齡結構是一緻的嗎?海軍都是青壯年而紐約市民中很一部分是死亡率極高的老年人,這兩個人群的死亡率可以比較嗎?顯然是不行的。國家統計局公布2009年上半年,中國城鎮機關在崗職工平均工資為14638元,與上年同期相比增加了1674元,增長12.9%。有網民稱,統計資料與自己的收入不符。為何數字公布與網民感受不符呢?關鍵在于納入國家統計局口徑的不是所有勞動人口,而是城鎮國有機關、集體機關和股份合作、聯營、有限責任公司、股份有限公司、外資和港澳台商投資機關的員工,不包括私營機關、個體工商戶和靈活就業人員,而往往低收入人群廣泛存在于漏掉那部分人群中。是以在看到一個統計結論時一定要仔細辨清其統計口徑。

統計數字會說謊

【案例八】真的是因果關系嗎?

如果給出全班所有成員的成績,又給出是否抽煙的情況,你發現抽煙的學生成績都比較差,你是否就能得出“抽煙導緻低分”的結論呢?抽煙與低分之間可能還有性格、家庭等各方面的因素。兩個變量一起變動隻能代表他們相關但不能代表他們是因果關系。

統計數字會說謊

此圖給出了兩種很容易被我們誤解為a與b之間有因果關系的情況,雖然a與b同時變動,但是他們的變動都是由z引起的,而不是本身的因果關系,這樣的情況我們需要特别注意。

統計數字會說謊

總結以上八個案例,特别提示大家注意以下問題:

□  根據抽樣得出的結論一定要采用具有代表性的樣本

□  在樣本量足夠時誤差才會較小,結論才會可靠

□  對敏感隐私問題需要多方驗證

□  看到平均數時首先問問是平均了什麼?

□  同一種資料的不同展現方式帶來的陷阱

□  大部分結論都有其限定條件和适用範圍

□  口徑不一緻的資料不能拿來比較

□  兩個數字同時變化并不能用于說明因果關系

如果在看到很多資料以及結論的時候想到了以上八個問題,并且在心中回答出以下四個問題:“研究方法科學嗎?”、“表達方式有誤嗎?”、“這些數字可以比較嗎?”、“結論有限定條件嗎?”,那麼恭喜大家練成了火眼金睛,不用害怕掉入任何數字的陷阱了!

<b></b>

<b>原文釋出時間為:2013-08-6</b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>