■ 數萬年前,人類意識到某些事情的變化,會導緻另外一些事情的發生,這開啟了人們對因果的直覺性思考,使人類創造出了有組織的社會,直至我們今天的科技文明。
■ 2000多年前,哲學家亞裡士多德提出四因說,他認為:隻有了解了事物産生的原因,即事物的本原,才能真正了解這個事物,開啟了人們對因果的哲學辯論。
■ 500多年前,現代科學誕生,科學界開始了對因果觀念的邏輯分析。
隻是近一個世紀以來,科學家們信奉“相關關系不等于因果關系”這句統計論斷,統計學的傳統教育逐漸形成了諱忌讨論因果的局面。
直到圖靈獎得主、推動機器進行機率推理的“貝葉斯網絡之父” Judea Pearl打破禁忌。他對AI深陷機率關聯泥潭進行尖銳批評,放棄了機率推理,轉而支援因果推斷理論,認為實作強AI的突破口就在于因果推斷理論。
2021年瑞典皇家科學院将諾貝爾經濟學獎頒發給了三位對因果推斷理論做出傑出貢獻的科學家,因果推斷一時炙手可熱。

本文和後續的系列文章,将通過回答在科學史和思想史中的靈魂三問:什麼是因果推斷?為什麼研究因果推斷?怎麼進行因果推斷研究?由淺入深解讀因果推斷。
01 什麼是因果推斷?
關于因果關系,在《牛津哲學詞典》的定義是,“當一個事件的出現導緻、産生或決定了另一個事件的出現,這兩個事件之間的關系就被稱為因果關系。例如,外面正在下雨,不帶雨具出門會被淋濕衣服。下雨和淋濕衣服之間就是因果關系, 下雨是原因,淋濕衣服是結果。
因果推斷是統計學和資料科學的核心問題之一,在一種現象已經發生的情況下,推出因果關系結論的過程,就是因果推斷。它在生物醫學、經濟管理和社會科學中有都有廣泛應用,可以揭示變量之間的因果關系,發現現象背後的深層原因,比如:吸煙是否緻癌?社會招聘是否存在性别歧視?也可以估計定量的因果效應,分析當原因改變時結果變量的響應,以幫助人們更科學的做決策幹預,比如:教育水準如何影響一個人未來的收入?比如一種藥物會使得病人生存期延長多少?等等。
因果推斷也被認為是人工智能領域的一次範式革命,是近年來該領域的研究熱點之一。未來,能否讓AI像人一樣思考?強人工智能是否能實作?為AI模型賦予因果關系思維似乎成了解答這些問題的必要因素和必經之路。
02 為什麼研究因果推斷?
目前的機器學習主要利用資料中的統計相關性進行模組化。相關性的主要來源有:因果(causation)、混淆(confounding)、樣本選擇偏差(selection bias),三類分别對應以下三種結構:
上圖:相關性的三個來源。其中,T表示原因;Y表示結果;X表示混淆變量;S表示選擇偏差。黑色實心箭頭表示直接因果關系,灰色虛線箭頭表示假性相關關系。
其中,隻有由因果(causation)産生的相關,即因果關系,是一種穩定的機制,不随環境變化而變化;也隻有這種穩定的結構是可解釋的。例如,無論是在哪個國家,夏天時候天氣變熱(原因:T),會導緻冰淇淋的數量(結果:Y)上升。
混淆(confounding)是指存在一個變量X,該變量構成了T和Y的共同原因,如果忽略了X的影響,那麼T和Y之間存在假性相關關系:即T并非産生Y的直接原因。如果我們在夏天時候發現遊泳溺水的人數增加,如果忽略了氣溫的影響,僅憑冰淇淋銷量與溺水人數呈現出來的正向相關關系,則可能得出吃冰淇淋會導緻遊泳溺水的錯誤結論。
樣本選擇偏差(selection bias)也會産生相關性。當兩個互相獨立的變量T和Y産生了一個共同結果變量S,引入S則為T和Y之間打開了一條通路,進而誤以為T和Y之間存在關聯關系。例如,有些非常勤奮的人去參加了就業教育訓練,同時因為他們的勤奮得到了非常好的工作,此時,如果隻考慮這部分勤奮的人群,那麼在樣本選擇偏差的背景下,會産生參加就業教育訓練幫助人們得到了更好的工作;而現實的情況可能是就業教育訓練對找工作并沒有什麼幫助。
大量研究表明:過于依賴統計相關的模組化方式,存在着嚴重的理論缺陷:缺乏因果關系考慮,僅從資料中學習到的相關性可能是錯誤的。首先,利用相關性學習的模型,泛化能力和穩定性差,極易受到場景變化或資料中異常值的影響;再者,過度依賴資料拟合的機器學習模型就像是一個黑盒子,缺乏可解釋性。
随着人工智能的應用從網際網路領域向工業、醫療、金融等領域的拓展,人工智能技術的優化方向也逐漸開始從「性能驅動」轉向「風險敏感」。在這樣的背景下,缺乏穩定性和可解釋性極大地限制了AI模型的落地。在機器學習模型中加入因果機制,似乎已經成為彌補機器學習理論缺陷,進一步發展人工智能技術的必經道路。因果關系的穩定性和可解釋性,強大到可以讓人們有足夠的信心去做科學且安全的決策,進而提高效率、降低成本、防止損失。
工業界和學術界存在大量使用因果推斷改進人工智能模型的研究和應用案例。例如,在傳統的網絡營銷中,為了研究網頁上【了解更多】按鈕還是【擷取方案】按鈕更促進轉化,我們需要進行嚴格的控制實驗,通過A/B測試去測量各個元素的轉化效果。這種方法往往受到很多現實因素的限制,且成本昂貴。然而,我們可以通過在現有資料上使用因果推斷來實作該目标。
03 怎麼進行因果推斷研究?
目前有關因果推斷的研究主要包括兩個方向:一是因果發現(Causal Discovery),二是因果效應的估計(Causal Effect Estimation)。因果發現旨在從紛繁的資料中,挖掘出變量之間的因果關系,其本質是要找到用于描述變量間因果關系的圖網絡結構。因果效應估計主要研究原因變量對結果變量的影響程度,其本質是建立因果模型并輸出對增量的預測值。
以電商平台中對商品進行動态調價的應用為例。平台上商品價格往往不是一成不變的,需要随産品生命周期和市場需求波動等動态變化,準确的定價往往對于完成銷售及盈利目标等具有關鍵意義。
基于因果發現方法,可以從大量産品屬性、店鋪屬性、促銷日、商品價格、商品銷量資料中挖掘出它們内在的因果關系。通過建構一張完備的因果圖,定性地刻畫不同變量之間的作用關系,從資料中挖掘出的本質規律,會幫助提供合理的定價決策方向。
為了進一步研究商品價格與銷量之間的關系,我們以因果圖為指導,使用因果效應估計方法,定量地确定出每家店鋪中每一種商品的價格對銷量的影響程度,用于制定精準的價格調整政策。
在現實生活中,人們通過行為幹預(Intervention)認知因果。以冰淇淋的銷量為例,雖然我們不能直接幹預天氣變化,但是我們可以通過選擇在幹旱地區,即那些即使在夏天也無人遊泳的區域,比較冬天和夏天冰淇淋的銷量,得出冰淇淋的銷量會随着氣溫上升而增加的結論;同樣,我們可以選擇比較幹旱地區和濕潤地區的冰淇淋銷量,得知冰淇淋銷量的增加與溺水人數并無因果關系。這樣的行為幹預,直接表現為控制實驗(Controlled Experiment)。嚴格的控制實驗,已經成為了研究因果關系的經典方法。然而,因果革命還帶來了另一個重要成果,即允許我們在不實際實施控制實驗的情況下,僅僅從觀測資料中進行因果發現,并對因果效應進行估計。
我們将在後續文章中,對如何利用觀測資料進行因果發現和因果效應估計的工具和經典方法作出詳細介紹。歡迎持續關注。
(本文首發于微信公衆号:ML OR 智能決策。分享更多幹貨,歡迎交流~)