天天看點

你真的看懂資料新聞了嗎?

你真的看懂資料新聞了嗎?

前言

在分析領域中,因果性和相關性的使用是不精确的。人們傾向于互換使用這兩個詞,但并不知道隐藏其中的基本邏輯。顯然,人們被這兩個詞的(英文)發音所迷惑,最終将它們用在錯誤的地方。但我要提醒注意的是,除了發音相似,這兩個詞并沒有很多相同之處。事實上,它們的基本含義可謂相去甚遠!

讓我們通過以下的一些例子,來了解因果性和相關性之間的差別。分析下面這些場景,請回答在兩個事件x和y之間是否有因果性。答案在後面。

例1:x( 學生被錄取的學院的級别)=> y (畢業後的收入)

假設:精英商學院學生的收入比平均水準高。這些商學院是獲得更好工作的原因嗎?

你真的看懂資料新聞了嗎?

例2: x (抽煙)=> y(精神壓力水準)

假設:抽煙的人被發現精神壓力更大。抽煙是導緻壓力的原因嗎?

你真的看懂資料新聞了嗎?

例3:x(有孩子)=> y (成熟度)

假設:人們在有了孩子後更成熟?有孩子是成熟度更高的原因嗎?

你真的看懂資料新聞了嗎?

例4: x (海拔)=> y(溫度)

假設:我們觀測到海拔較高時,溫度較低。這意味着,海拔越高就越冷。那麼,更高的海拔是導緻更低溫度的原因?

你真的看懂資料新聞了嗎?

希望上面的例子會觸發你的學習欲望,并且讓你興奮地想多學一點。盡管這不是一個剛被發現的話題,但是人們仍沒有切實掌握使用這些術語。是以,我試圖用最簡單的方式來解釋因果性和相關性的各個方面。

本文中,我将解釋因果性和相關性之間的差別,接着學習隻有相關性還是有因果關系。如果你想在分析行業有紮實的基礎,了解這個概念是非常必要的,而目前分析就像在一些黑匣子上工作。這些技術(因果性和相關性)不隻是局限于分析行業,它們的應用遍及所有的行業。

一起來看看答案:

例1:不存在因果性。比如,隻有那些從精英商學院中被選中的雄心勃勃且聰明的人,後來才獲得比平均水準高的收入。是以,就算這些學生沒有在那些精英商學院學習,他們仍舊可能得到比平均水準高的收入。于是,在這種情況下,我們有可替代的推理。

例2:不存在因果性。我們可以基于逆因果性來推翻假設。比如,較大的精神壓力事實上能讓一個人去抽煙。

例3:不存在因果性。再一次地,我們可以基于逆因果性來推翻假設。比如,隻有成熟的人可能準備好了要生孩子。我們也可以用年齡作為潛在的原因來替代。更大的年齡導緻想生孩子和更成熟。

例4:不存在因果性 。我們當然知道,逆因果性是不可能存在的。可替代的原因或互相獨立的關系也是不存在的。

結論:如果你能正确地回答這所有的4個問題,你可以進入下一個概念了。假如你做錯了任何一題,你也許需要在因果性問題上多加練習。

什麼是建立因果關系的關鍵點?

建立因果關系的關鍵點對(x = > y)是:

1、可替換推理:若存在一個可替換的原因(z),z确實對x和y都有影響,即z => x和z => y為真,就那麼可以推翻假設x => y。

2、逆因果性:如果可以用y影響x來替換x影響y,那麼可以根據逆因果性來推翻假設x => y。

3、互相獨立:有時候x和y也許是“被相關”,而再無其它聯系。在這樣的情況下,根據互相獨立性可以推翻假設。

我們如何能确定得到因果性?

在類似制藥領域中,建立因果對是非常重要的。這正是制藥領域要完成足夠多的研究來找到因果對的原因。在開始數學推導前,要了解下面的一些定義。

1、随機實驗資料:一種實驗通常被定義成在不同條件下随機配置設定觀測單元,條件随着對觀測單元的處理而不同。“處理”(treatment)是一個通用的術語,在醫療應用中最容易翻譯(例如,不同情況對病患得到不同的治療),但是它也适用于其它領域。

2、觀測資料:如果沒有太多的錢做随機測試,就不得不在已有資料資源上下功夫。在不受控的情況下,這樣的事件已經發生了。是以,選擇不是随機的。

由觀測資料推導出因果關系是非常困難的,且不具有結論性。在因果關系上要獲得具有結論性的結果,需要做随機測試。

為什麼觀測資料不具有結論性?

觀測資料不具有結論性,是因為觀測資料不是随機選擇的。我們永遠無法從單個的因果對上得出結論。

2. 例如,如果大量從精英商學院畢業的學生獲得更高收入;這不能推出因果性,因為選擇是基于最初的表現。

3.無論如何,如果随機從精英商學院中選取學生,這個分析将會在建立因果性上更具有結論性。

為什麼不是每一次都進行随機測試來建立因果性?

你将會因為多種原因被要求利用觀測資料而不是測試資料工作。

第一個原因是,做測試需要資金。例如,如果你的假設是給消費者免費的iphone,這個活動會對蘋果公司的銷售帶來增量收益。在不知道任何因果關系時,做這個測試當然是個耗資巨大的提議。

第二個原因是,不是所有的測試在道德上都是被允許的。例如,如果想知道抽煙是否對精神壓力産生影響,需要讓正常人抽煙,而這從道德上來說是不被允許的。

在那種情況下,如何利用觀測資料建立因果性?

在這一具體問題上,已經完成了大量的研究。這些方法的整體目标,是消除任何未觀測到變量的影響。下面,将介紹一些衆所周知的技術:

一、面闆模型(普通回歸):若至少在一個次元上,不可觀測到的次元是不變的,那麼用這個方法就非常友善。例如,如果在時間上,不可觀測到的次元是不變的,就可以試着建立一個面闆模型,從不可觀測到的次元上分離出偏差。比如,以商學院=>高收入為例子,假設不可觀測到的次元不随着時間而改變。

來試試這個方法。

下面是個y(收入)的回歸方程,以精英商學院(下标t)和不可觀測到的次元(下标u)為變量

2. 但是,因為不可觀測到的次元不随着時間而改變,可以将方程簡化如下:

3. 現在,可以通過随着時間産生的差别來消除不可觀測到因素

現在,問題是在商學院和收入之間找到因果性的确切系數。

二、模拟控制:觀測資料最大的問題是在同一個資料點,無法同時擷取得到處理和未經處理的資料。比如,在前面提到的抽煙例子裡, 一個人不能同時既是抽煙者又是不抽煙者。

但是,如果可以為得到處理的資料在未經處理組找到看起來很像的資料,然後在相似資料中比較得到處理的反應結果。這是在如今的行業中應用最普遍的方法。

這種相似性可以在近鄰算法、k-d樹或其它算法中找到。打個比方,兩個人,他們年齡一樣,性别一樣,收入一樣等等。其中一人開始抽煙,另一人則不抽煙。現在,如果其它條件沒有變化,那麼可以在一段時間内比較他們的壓力水準。

你真的看懂資料新聞了嗎?

從理論上講,這個方法聽起來讓人非常興奮,它通常是難以建立純模拟或虛拟控制,有時它能産生也許不正确的結論。這事實上是将來另外一篇不同文章的主題。

三、輔助變量(iv):這或許是最難實施的。下面是實施這技術的步驟:

找到因果對。

2.找到跟原因有關的屬性,但是這跟通過回歸因果對獲得的誤差無關。這個變量就是已知的輔助變量(iv)。

3.現在利用輔助變量(iv)估計原因變量。

4.試試回歸估計因果對來找到因果性的實際參數。

你真的看懂資料新聞了嗎?

到目前為止,我們完成了什麼?

利用觀測資料,在因果對中使用任何回歸技術都有偏差系數。用這種方式,可以得到無偏差的估計。比如,在抽煙——精神壓力對中,我們也許認為會被逆因果性所影響。

現在,如果可以找到和卷煙消費量而不是和精神壓力有關的資訊,也許能找到真正的關系。通常,輔助變量(iv)是基于調整的變量。例如,我們發現稅收管理隻提高了卷煙的價格,導緻整個模型裡的卷煙消費量下降。現在可以試試按上面提到的4個步驟來找找精神壓力因果性。

4. 回歸不連續性設計:這是我最喜愛的選擇。它使得觀測資料真正接近實驗設計。

在下圖中,我們發現一個次元,其上有一個峰值,該峰值位于得到處理和未經處理的群體比例上。假設,我們想測試在課程結束時,獎學金對大學生成績的影響。注意,獎學金是提供給在入學考試中得分在80分以上的學生。發生扭轉的地方就在這裡:因為這些學生已經很聰明,未來他們也許繼續保持頂尖水準。是以,這是一個難以破解的因果性。

你真的看懂資料新聞了嗎?

但是,如果把成績剛剛在80分以下(比如說79.9分)的學生和成績剛剛在80分之上(比如說80.1分)的學生在學期結束時的成績做一比較。假設那些得分為79.9的學生和得分為80.1的學生不會有很大的差别,隻有獎學金的作用可以改變。這就是所謂的準随機選擇。

是以,得到的結果會很接近完美的因果性結論。使用這種方式的唯一挑戰,在于得到這樣一個次元是非常難的,而它能在得到處理和未經處理的群體之間進行很好的劃分。

結束語

在分析領域中,建立因果性也許是最難的任務。得到錯誤因果性的機率異常高。本文章讨論的關鍵概念将較好地幫助你解決因果性問題。

就以這些幽默的話題結束這篇文章吧。這裡有些圖檔顯示了相關性和因果性的不同。

你真的看懂資料新聞了嗎?

虛假的相關性:

你真的看懂資料新聞了嗎?

原文釋出時間為:2015-07-06

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀