你真的看懂資料新聞了嗎？

前言

在分析領域中，因果性和相關性的使用是不精确的。人們傾向于互換使用這兩個詞，但并不知道隐藏其中的基本邏輯。顯然，人們被這兩個詞的（英文）發音所迷惑，最終将它們用在錯誤的地方。但我要提醒注意的是，除了發音相似，這兩個詞并沒有很多相同之處。事實上，它們的基本含義可謂相去甚遠！

讓我們通過以下的一些例子，來了解因果性和相關性之間的差別。分析下面這些場景，請回答在兩個事件x和y之間是否有因果性。答案在後面。

例1：x（學生被錄取的學院的級别）=> y （畢業後的收入）

假設：精英商學院學生的收入比平均水準高。這些商學院是獲得更好工作的原因嗎？

例2： x （抽煙）=> y（精神壓力水準）

假設：抽煙的人被發現精神壓力更大。抽煙是導緻壓力的原因嗎？

例3：x（有孩子）=> y （成熟度）

假設：人們在有了孩子後更成熟？有孩子是成熟度更高的原因嗎？

例4： x （海拔）=> y（溫度）

假設：我們觀測到海拔較高時，溫度較低。這意味着，海拔越高就越冷。那麼，更高的海拔是導緻更低溫度的原因？

希望上面的例子會觸發你的學習欲望，并且讓你興奮地想多學一點。盡管這不是一個剛被發現的話題，但是人們仍沒有切實掌握使用這些術語。是以，我試圖用最簡單的方式來解釋因果性和相關性的各個方面。

本文中，我将解釋因果性和相關性之間的差別，接着學習隻有相關性還是有因果關系。如果你想在分析行業有紮實的基礎，了解這個概念是非常必要的，而目前分析就像在一些黑匣子上工作。這些技術（因果性和相關性）不隻是局限于分析行業，它們的應用遍及所有的行業。

一起來看看答案：

例1：不存在因果性。比如，隻有那些從精英商學院中被選中的雄心勃勃且聰明的人，後來才獲得比平均水準高的收入。是以，就算這些學生沒有在那些精英商學院學習，他們仍舊可能得到比平均水準高的收入。于是，在這種情況下，我們有可替代的推理。

例2：不存在因果性。我們可以基于逆因果性來推翻假設。比如，較大的精神壓力事實上能讓一個人去抽煙。

例3：不存在因果性。再一次地，我們可以基于逆因果性來推翻假設。比如，隻有成熟的人可能準備好了要生孩子。我們也可以用年齡作為潛在的原因來替代。更大的年齡導緻想生孩子和更成熟。

例4：不存在因果性。我們當然知道，逆因果性是不可能存在的。可替代的原因或互相獨立的關系也是不存在的。

結論：如果你能正确地回答這所有的4個問題，你可以進入下一個概念了。假如你做錯了任何一題，你也許需要在因果性問題上多加練習。

什麼是建立因果關系的關鍵點？

建立因果關系的關鍵點對（x = > y）是：

1、可替換推理：若存在一個可替換的原因（z），z确實對x和y都有影響，即z => x和z => y為真，就那麼可以推翻假設x => y。

2、逆因果性：如果可以用y影響x來替換x影響y，那麼可以根據逆因果性來推翻假設x => y。

3、互相獨立：有時候x和y也許是“被相關”，而再無其它聯系。在這樣的情況下，根據互相獨立性可以推翻假設。

我們如何能确定得到因果性？

在類似制藥領域中，建立因果對是非常重要的。這正是制藥領域要完成足夠多的研究來找到因果對的原因。在開始數學推導前，要了解下面的一些定義。

1、随機實驗資料：一種實驗通常被定義成在不同條件下随機配置設定觀測單元，條件随着對觀測單元的處理而不同。“處理”（treatment）是一個通用的術語，在醫療應用中最容易翻譯（例如，不同情況對病患得到不同的治療），但是它也适用于其它領域。

2、觀測資料：如果沒有太多的錢做随機測試，就不得不在已有資料資源上下功夫。在不受控的情況下，這樣的事件已經發生了。是以，選擇不是随機的。

由觀測資料推導出因果關系是非常困難的，且不具有結論性。在因果關系上要獲得具有結論性的結果，需要做随機測試。

為什麼觀測資料不具有結論性？

觀測資料不具有結論性，是因為觀測資料不是随機選擇的。我們永遠無法從單個的因果對上得出結論。

2. 例如，如果大量從精英商學院畢業的學生獲得更高收入；這不能推出因果性，因為選擇是基于最初的表現。

3.無論如何，如果随機從精英商學院中選取學生，這個分析将會在建立因果性上更具有結論性。

為什麼不是每一次都進行随機測試來建立因果性？

你将會因為多種原因被要求利用觀測資料而不是測試資料工作。

第一個原因是，做測試需要資金。例如，如果你的假設是給消費者免費的iphone，這個活動會對蘋果公司的銷售帶來增量收益。在不知道任何因果關系時，做這個測試當然是個耗資巨大的提議。

第二個原因是，不是所有的測試在道德上都是被允許的。例如，如果想知道抽煙是否對精神壓力産生影響，需要讓正常人抽煙，而這從道德上來說是不被允許的。

在那種情況下，如何利用觀測資料建立因果性？

在這一具體問題上，已經完成了大量的研究。這些方法的整體目标，是消除任何未觀測到變量的影響。下面，将介紹一些衆所周知的技術：

一、面闆模型（普通回歸）：若至少在一個次元上，不可觀測到的次元是不變的，那麼用這個方法就非常友善。例如，如果在時間上，不可觀測到的次元是不變的，就可以試着建立一個面闆模型，從不可觀測到的次元上分離出偏差。比如，以商學院=>高收入為例子，假設不可觀測到的次元不随着時間而改變。

來試試這個方法。

下面是個y（收入）的回歸方程，以精英商學院（下标t）和不可觀測到的次元（下标u）為變量

2. 但是，因為不可觀測到的次元不随着時間而改變，可以将方程簡化如下：

3. 現在，可以通過随着時間産生的差别來消除不可觀測到因素

現在，問題是在商學院和收入之間找到因果性的确切系數。

二、模拟控制：觀測資料最大的問題是在同一個資料點，無法同時擷取得到處理和未經處理的資料。比如，在前面提到的抽煙例子裡，一個人不能同時既是抽煙者又是不抽煙者。

但是，如果可以為得到處理的資料在未經處理組找到看起來很像的資料，然後在相似資料中比較得到處理的反應結果。這是在如今的行業中應用最普遍的方法。

這種相似性可以在近鄰算法、k-d樹或其它算法中找到。打個比方，兩個人，他們年齡一樣，性别一樣，收入一樣等等。其中一人開始抽煙，另一人則不抽煙。現在，如果其它條件沒有變化，那麼可以在一段時間内比較他們的壓力水準。

從理論上講，這個方法聽起來讓人非常興奮，它通常是難以建立純模拟或虛拟控制，有時它能産生也許不正确的結論。這事實上是将來另外一篇不同文章的主題。

三、輔助變量（iv）：這或許是最難實施的。下面是實施這技術的步驟：

找到因果對。

2.找到跟原因有關的屬性，但是這跟通過回歸因果對獲得的誤差無關。這個變量就是已知的輔助變量（iv）。

3.現在利用輔助變量（iv）估計原因變量。

4.試試回歸估計因果對來找到因果性的實際參數。

到目前為止，我們完成了什麼？

利用觀測資料，在因果對中使用任何回歸技術都有偏差系數。用這種方式，可以得到無偏差的估計。比如，在抽煙——精神壓力對中，我們也許認為會被逆因果性所影響。

現在，如果可以找到和卷煙消費量而不是和精神壓力有關的資訊，也許能找到真正的關系。通常，輔助變量（iv）是基于調整的變量。例如，我們發現稅收管理隻提高了卷煙的價格，導緻整個模型裡的卷煙消費量下降。現在可以試試按上面提到的4個步驟來找找精神壓力因果性。

4. 回歸不連續性設計：這是我最喜愛的選擇。它使得觀測資料真正接近實驗設計。

在下圖中，我們發現一個次元，其上有一個峰值，該峰值位于得到處理和未經處理的群體比例上。假設，我們想測試在課程結束時，獎學金對大學生成績的影響。注意，獎學金是提供給在入學考試中得分在80分以上的學生。發生扭轉的地方就在這裡：因為這些學生已經很聰明，未來他們也許繼續保持頂尖水準。是以，這是一個難以破解的因果性。

但是，如果把成績剛剛在80分以下（比如說79.9分）的學生和成績剛剛在80分之上（比如說80.1分）的學生在學期結束時的成績做一比較。假設那些得分為79.9的學生和得分為80.1的學生不會有很大的差别，隻有獎學金的作用可以改變。這就是所謂的準随機選擇。

是以，得到的結果會很接近完美的因果性結論。使用這種方式的唯一挑戰，在于得到這樣一個次元是非常難的，而它能在得到處理和未經處理的群體之間進行很好的劃分。

結束語

在分析領域中，建立因果性也許是最難的任務。得到錯誤因果性的機率異常高。本文章讨論的關鍵概念将較好地幫助你解決因果性問題。

就以這些幽默的話題結束這篇文章吧。這裡有些圖檔顯示了相關性和因果性的不同。

虛假的相關性：

原文釋出時間為：2015-07-06

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

你真的看懂資料新聞了嗎？

繼續閱讀

算法測試的一點淺見

ubuntu下安裝trac

《移動APP測試實戰》學習筆記

Winrunner的一些技巧

軟體小白-入門軟體測試管理工具”禅道“歡迎使用Markdown編輯器

材料類：太陽能電池元件測試虛拟仿真實驗。二零二二年全年光伏電池産量達三點四億千瓦。太陽能電池作為一種再生清潔能源，是最具

微軟的測試方法

解決應用程式無法正常啟動0xc0150002問題

JTest的使用jtest

函數計算FC讓遊戲群采集營銷資料滴水不漏

石墨烯複合型光催化材料在酸性廢水進行中的應用研究酸性廢水是工業生産和人類活動中常見的一種污染源，包括金屬加工、電鍍、酸洗

jenkins 忘記admin使用者賬号密碼

測試資料準備

單元測試方法探索單元測試

網站GUI自動化測試技術思考