天天看點

别被資料分析師騙了!用資料說謊的三種辦法

别被資料分析師騙了!用資料說謊的三種辦法

雷鋒網按:日前,亞馬遜歐洲商業智能部門負責人、資深資料科學家 karolis urbonas,在發表了題為《用資料說謊》的博文。文章總結了用資料誤導人最常見的三種方法。這三種做法,或許大家在潛意識裡都知道,但未必會把它們與“用資料說謊”聯系起來。

當然,作者的目的,是希望資料科學、機器學習從業者引以為戒。全文由雷鋒網編譯,做了不改變原意的删改。

别被資料分析師騙了!用資料說謊的三種辦法

karolis urbonas

“用資料說話”,這句話常被大家挂在口邊。

自大學起,那些希望我們養成批判、邏輯思維的老師,就一遍遍向我們灌輸“觀點”、“經驗主義”與“客觀事實”的差別,引導學生如何正确看待“嚴師出高徒”、“原湯化原食”、“君子坦蕩蕩,小人長戚戚”、“天将降大任于斯人也,必先……”等等古代“智慧”結晶。

是以在潛意識裡,會有人認為,高品質資料代表的就是事實,而基于可靠資料的分析與結論,也應當是客觀、理性的。

但往往并不如此。

舉個例子,資料分析師會有意無意地有所傾向、偏頗,這很難避免;還會受到來自周圍同僚、上司的壓力或是期望,又或是項目趕時間。除此之外,資料分析和解讀的過程也存在天然的風險,導緻最後的“說謊”行為。即便資料科學家的初衷十足高尚,最後的結果也未必能保證真實、客觀。

閑話少說,一起來看看用資料說謊的三種方法。

平均數是有史以來被濫用最嚴重的參數,到處都有人利用它來創造謊言。

當平均數被提供,請注意:除非資料是标準分布(基本上從來都不是),否則它不能代表任何反映真實情況的有價值資訊。這背後的原因很簡單,用通俗的話來講,就是大家常說的“我上司收入 100 萬,我收入 20 萬,兩人的平均收入是 60 萬”。在理論上講,平均數根本無法反映資料的結構分布,而該資訊至關重要。平均值并不是一個非常可靠的度量參數,它對邊緣數值以及任何偏離标準分布的樣本都非常敏感。

統計學家弄明白這一點已經有幾十年,但企業、各類機構、政府仍然把平均數作為核心統計參數,并基于它來對涉及十億、百億、千億規模的問題做決策,并且掩蓋真實問題。

解決方案是什麼呢?

不要用平均數!從今兒起不再用它,并有意識地考慮資料分布,不要弄出來一個隻對個别情形有參考意義的統計報告。第一步,可以從使用中位數開始,并且用 top 99%、bottom 1% 數值來對資料進行概括。

平均數作為各門學科的權威參數已經太久,它有太多不加質疑的盲目追随者,我們幾乎已經可以把它看做是宗教。這事兒到底是怎麼發生的呢?很久很久以前,自然科學的标準分布假設(雷鋒網(公衆号:雷鋒網)注:使用平均數的前提)蔓延到了其他領域,比如商務分析以及其他商業資料應用。這毒害了好幾代的資料分析師。

證明性偏見(confirmationbias)

這又是一個很經典的誤導途徑,與心理學緊密相連。它發生于你搞清楚将解決的問題之前,當然,這一步也會影響該效應。資料分析師看待需要解決的問題的方式或角度,能在根本上改變原本的客觀立場。一旦牽涉到情感(不論是表達出來的,還是潛在的),顯而易見的,該效應會大幅加強。對于該效應,一般很難甄别,這也是差別普通資料分析師和大師級分析師的主要分水嶺。

一個十分典型的場景,是在時間不足的情形下被要求完成資料分析。這會産生盡快下結論的壓力——通常會有重要決策要根據分析結果來制定。這時會有許多偏見、偏差一股腦兒地湧入項目中,證明性偏見卻是資料分析師最心甘情願上鈎的一種。資料分析師随後根據心裡已有的假設,忙着在最短時間内回答或解決研究問題。這意味着第一個出現的僞相關就有可能被當做是答案。該情況下,分析師會主動尋找能證明原先假設的證據,而可能對其它證據視而不見。這便是“用資料來配合假設”。

這發生于資料分析師先入為主,認定該問題有一個“正确”的時候。當分析師有意尋找符合該假設的證據,該偏見便成功地把分析過程引到歧路。随後,分析師對資料的壓縮、調整,僅是為了貼合與假設一緻的結論。這裡,非常重要的措施,是在一開始就定義嚴格的研究要求,并收集支援正反兩面結論的資料和證據。

資料科學家對于在資料中找出某種模式、合了解釋,常常會心癢難耐。這時,他們很可能會忽視一個事實:并沒有足夠的資料來下結論、或回答問題。後者是完全正常的。這時候,也可能問題本身需要重新定義。

别被資料分析師騙了!用資料說謊的三種辦法

人腦是如此善于在混亂中發現模式或圖案——有時,它們開始發現并不存在的模式。對于資料科學家而言,這是非常緻命的。許多公司雇傭資料分析師就是為了發現模式,因而,發現的模式越多,證明該分析師的水準越高、洞察力非同一般,因為他看到了别人都看不到的東西。這類建立在謬誤之上的成功,導緻許多工作被聚焦于發現模式、分段以及“非同尋常的東西”。當然,許多時候這些都是正常存在的,真實資料中也會有許多噪音。

這就導緻了很尴尬的局面——資料分析師“發現”了原本并不存在的模式,企業根據該結論做決策,然後這一決策影響了現實人群,竟然迫使該模式真的出現。簡直是神奇。舉個非常簡單的例子:尋找消費者細分市場,然後試圖把他們從一個市場區間“轉”到另一個。當某細分市場被企業營銷部門瞄準,想要把他們推向一個其實并不存在的區間,該神奇的現象就會發生,發揮現實影響。但是,這種事的風險很大,并且容易導向一系列昂貴的錯誤決策。

這當然不是一個完整的“用資料說謊”清單。如要徹底學習,你應該學習心理學理論中其它能影響你的主觀判斷以及洞察力的認知偏差。 以上是最常見的資料分析陷阱,我看到許多分析師不小心掉進去,并非故意的制造出資料“謊言”而不是尋找真實情況。客觀并不是一個容易實作的目标,它需要許多自律。

最成功的資料科學家,會把非常非常多的注意力放在提防這些偏見、偏差上,并對它們所能導緻的這些謊言保持高度警覺。

本文作者:三川

繼續閱讀