天天看點

借助因果推斷,更魯棒的機器學習來了!

導語

因果發現是在滿足某些假設時,從資料中找出變量間因果聯系。然而若是真正引起因果關系的變量本身就沒有被觀測到,那該怎麼辦?

從資料中提取對指定任務有幫助的特征,正是機器學習成功的原因。通過結合機器學習,可以在更少的假設下,發現因果關系。而借由找出的因果鍊條,則可以提升機器學習算法的泛化能力。

本文基于凱風研讀營郭若城的分享,從以上兩方面概述機器學習和因果推斷間的關聯。郭若城是美國亞利桑那州立大學博士,他的綜述“A Survey of Learning Causality with Data:Problems and Methods”對該話題給出了全面的講解。

自9月20日(周日)開始,集智俱樂部聯合北京智源人工智能研究院還将舉行一系列有關因果推理的讀書會,歡迎更多的有興趣的同學和相關研究者參加,一起迎接因果科學的新時代。該文的作者郭若城也會在讀書會期間再詳細具體深入地介紹機器學習和因果推斷這個主題系列讀書會詳情與參與方式見文末。

1. 強忽略假設與混雜因素偏差

機器學習的任務,通常是描述式或預測式的,不需要涉及對資料本身因果關系的判斷。然而近期的一些列方法學上的進展,使得能夠基于更少的先驗假設,境界基于大資料,從中學到因果聯系。盡管這些方法,并沒有直接地判别因果關系,但為因果推斷指出了新的可能探索方法。

隻使用觀察到的資料,那能拿到的隻是變量之間的條件機率分布以及聯合機率分布,例如下圖所示的,不同的人在吃藥或沒吃藥時的健康狀況,而要想推斷出吃藥和健康狀況之間是否存在因果關系,可以看成是根據機率資訊,計算平均幹預影響(ATE average treatment effect)。

借助因果推斷,更魯棒的機器學習來了!

圖1 觀察到的資料執行個體

為了確定該問題是可解的,需要假設該問題中,所有可能同時對結果和原因産生影響的變量,都已被觀測,且所有可能對結果産生影響的幹預發生的機率在0到1之間,這被稱為強忽略假設(Strong ignorability),這意味着隻有給定了不同幹預下的機率分布,就可以計算不同幹預下的潛在可能結果的統計量。

借助因果推斷,更魯棒的機器學習來了!

圖2 強忽略假設示意圖,即可能的幹擾變量c不存在

通常,強忽略假設是很難在真實場景下滿足的。為此,可以通過隐含變量,即假設能夠通過機器學習,提取隐變量。使得即使在混雜變量不可被觀察時,通過控制隐變量,來将因果推斷變為可解的統計問題。

借助因果推斷,更魯棒的機器學習來了!

圖3 加入隐變量之後的結構因果圖,圖中的z可通過機器學習模型獲得

2. 三類判别因果關系的機器學習方法

第一類判斷因果關系的方法,基于神經網絡,同時認為強忽略假設滿足。這類方法通過隐含層提取出的表征,代表了混雜因素。之後通過不同潛在結果下對應的神經網絡,将隐變量的影響分别進行映射,最終得到不同幹預下的損失函數,用以代表因果關系。

借助因果推斷,更魯棒的機器學習來了!

圖4 CRFNet 網絡結構圖[1]

第二類方法,不要求強忽略假設滿足,但假設變量間獨立同分布。其代表是因果效應變分自編碼器(CEVAE)[2]。該方法在假設隐變量z符合高斯分布時,通過最小化原因x和結果y的經過自編碼器提取特征後差異,通過深度神經網絡表征隐變量z,之後可依據學到的模型,做反事實推斷。

借助因果推斷,更魯棒的機器學習來了!

圖5 CEVAE模型示意圖

第三類方法,基于樹模型,要求強忽略假設滿足,例如因果随機森林,模型學習如何通過将變量所處的空間,進行劃分,逐漸地從整體的機率分布,得到具體場景下的幹預影響,進而估計異質環境下的影響,以此來間接地評價因果關系。

在社交網絡中,互相有聯系的個人,往往在衆多未被觀測到的特征上,有着相似性,這被稱為同質性(homophily)。是以,在使用機器學習進行因果推斷中,如果能考慮社交網絡間的連接配接,能夠在強忽略假設不滿足時,更好的估計隐變量。

借助因果推斷,更魯棒的機器學習來了!

圖6 基于圖卷積網絡,提取社交網絡的特征,結合原資料特征。使用表征平衡損失,以平衡幹預與否狀況下的潛在混雜因素分布[3]。

3. 無偏差的機器學習

該如何選擇機器學習算法的評價名額?或者問什麼樣的名額能夠避免過拟合?對這兩個問題的回答,可以從下圖的對比看出。

借助因果推斷,更魯棒的機器學習來了!

圖7 因果推斷vs機器學習 對比圖 [5]

左圖的烏鴉,之是以能夠通過将碎石放入瓶中,進而喝到水,這是由于其了解了這背後的因果關系。而右圖的鹦鹉,訓練者需要的是其學會人類的語言,但實際考察的,卻隻是其模仿人類語句的能力。

而不涉及因果的機器學習,正如同這個鹦鹉,隻是學會了如何做出使評價名額提升的決策,卻沒有考慮這樣的選擇和最終的需求之間是否存在因果聯系。尤其是當測試資料與驗證資料分布不同時,則更可能出現過拟合。

例如在工業界使用機器學習來提升商品總銷量(GMV),在算法開發時,使用的是離線的資料集及評價名額,在算法上線後,通過實時資料進行評估。這裡有兩個挑戰。一個是算法線上表現和公司商業表現的關系尚不清楚。一個子產品(如推薦系統)更好的線上表現可能并不能使公司盈利增加,因為它可能同時導緻其他子產品(如搜尋)的表現下降。第二個是我們無法直接使用線上表現的标簽訓練機器學習模型。這是因為正在訓練的模型和已經上線的模型在預測上的不同帶來的偏差。如何無偏差地利用已經上線的模型搜集到的資料去離線場景下訓練新的模型也是一個因果機器學習中重要的問題,這個問題又被稱為無偏差機器學習。

借助因果推斷,更魯棒的機器學習來了!

圖8 離線評價,線上評價與真實商業場景下表現的對比和聯系 [5]

然而,如果使用線上的資料進行評測,往往會對使用者的體驗造成影響。A/B測試意味着使用者會看到不同的展示界面。而無偏差的機器學習的目标,則是不進行線上評測,根據算法在離線資料上的評價名額,來估計其在真實商業場景中的效果。

借助因果推斷,更魯棒的機器學習來了!

圖9 影響使用者點選的因素包含展示方式和使用者喜好

例如,搜尋中,排在前的網頁被點選得更多,使用者點選網站有兩個先決條件,使用者看到網站,同時還喜歡網站,如果排序算法對網站的評分,沒有考慮目前網頁排名帶來的影響,就會在評估時有偏。然而推薦算法真正想提取的,是使用者喜好的資訊。

而相比傳統的網頁搜尋,電商網站的搜尋結果,往往會以二維的網格呈現,這使得電商搜尋資料呈現帶來的偏差與傳統的網頁搜尋相比,變得更為複雜,為此在通過用傾向性得分 (Inverse Propensity Scoring) 來對标簽進行權重。去校正選擇性偏差前,需要根據離線資料或者線上随機實驗,評估每個标簽(點選或者購買)對應的傾向性得分。

例如,之前的研究指出,觸屏中,如果使用者對展示的這幾項都不感興趣,則不會看完而會直接滑動換一屏;對螢幕中間展示的商品更容易關注,相比線性的展示,使用者的注意力能停留更長時間。而通過實際資料檢驗,發現對展示位置為的中間商品的偏好不存在,是以在之後,就不需要考慮針對這一偏差,使用Inverse Propensity Score IPS 進行權重再配置設定。

4. 如何學習不同環境下的相同特征

資料标簽和待學習的特征,往往存在着僞關聯。例如訓練集中駱駝的圖檔都出現在沙漠中,而羊的圖檔都出現在草原,如此訓練出的模型,會将沙漠的特征當成駱駝的特征,然而這并非是存在着因果關系的特征。

将特征分為兩類,一類為因果特征,一類為僞特征。因果特征能夠跨越不同的資料類型,在不同的場景下遷移。而後者會随着資料所屬範疇的改變而改變。能夠提取出因果特征的模型,泛化能力更強。

根據是否找到代表因果關系的特征,可以将訓練好的深度學習模型分為是否具有異分步可泛化性(OOD :out of distribution )。如果模型的訓練資料,來自從多個來源收集的獨立同分布的資料,且測試資料和訓練資料不同,則稱模型具有OOD泛化能力。

借助因果推斷,更魯棒的機器學習來了!

圖10 因果不變特征示意圖

上圖中資料E,經由因果特征Xc,影響分類标簽Y,而Xs為僞相關特征。在資料E的範疇改變時,給定E是Xc和Xs的分布都會改變,而給定Xc得出标簽Y的分布不變,是以将Xc稱為表征了因果聯系的特征。論文[4]中提出的IRM方法,詳述了如何捕捉因果不變特征。

該文在二分類問題中,在訓練集和測試集中,加入了顔色和标簽之間的僞相關,并使得訓練集和測試集之間的之間顔色的分布相反。如下圖中左邊測試集中,相同标簽的數字圖檔多為綠色,而測試集中的圖檔為紅色。對于IRM,其在訓練集和測試集中的分類準确度遠高于傳統模型,接近了去掉顔色這一幹擾因素的理想情況。

借助因果推斷,更魯棒的機器學習來了!

圖11 顔色呈不同分布的訓練和測試資料集

然而,IRM作為一種正則項,雖然能夠學到因果聯系,但不适用于高維資料,且在優化過程中,引入了額外的複雜性。

5. 總結

從資料中發現因果關系,按對資料的假設,可以分為假設資料獨立同分布,資料不滿足獨立同分布,但強忽略假設滿足,以及包含未觀察到的隐變量三種。機器學習相關的方法,主要試圖解決後一種問題。而傳統因果發現中基于限制或打分模型的方法,需要實際中更難滿足的強忽略假設。

借助因果推斷,更魯棒的機器學習來了!

圖12 因果推斷和機器學習的方法彙總圖

從資料中發現因果關系的方法彙總,左邊的子樹對應從資料中學習包含未觀測隐變量的因果聯系的強弱,中間代表如何學習因果關系的方向,右邊代表了因果性和機器學習方法的關聯[6]。

經由因果性特征的發現,除了幫助模型具有更好的遷移能力,具有異分布泛化性,還能夠用于半監督學習及強化學習。未來可能的研究方向還包括如何提升模型的可解釋性,以及讓模型更加公平,例如對少數族裔或女性不進行“算法殺熟”。

而在另一個方向上,即通過尋找特征,間接地尋找因果關系及其影響程度。如何應對高維的資料、時序資料,如何處理結果與原因之間存在的環狀結構等,仍然是開放問題。然而對于同樣發源于統計的機器學習和因果推斷,兩者之間的方法學,注定存在可借鑒之處與更多值得進一步研究的聯系。

參考文獻:

[1] Johansson, Fredrik, Uri Shalit, and David Sontag. "Learning representations for counterfactual inference." International conference on machine learning. 2016.

[2] Louizos, Christos, et al. "Causal effect inference with deep latent-variable models." Advances in Neural Information Processing Systems. 2017.

[3] Guo, Ruocheng, Jundong Li, and Huan Liu. "Learning individual causal effects from networked observational data." In Proceedings of the 13th International Conference on Web Search and Data Mining, pp. 232-240. 2020.

[4] Arjovsky, Martin, Léon Bottou, Ishaan Gulrajani, and David Lopez-Paz. "Invariant risk minimization." arXiv preprint arXiv:1907.02893 (2019)

[5] Wang, Zenan, Xuan Yin, Tianbo Li, and Liangjie Hong. "Causal Meta-Mediation Analysis: Inferring Dose-Response Function From Summary Statistics of Many Randomized Experiments." In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 2625-2635. 2020.

[6] Guo, Ruocheng, et al. "A survey of learning causality with data: Problems and methods." ACM Computing Surveys (CSUR) 53.4 (2020): 1-37.

作者:郭瑞東  審校:郭若城  編輯:鄧一雪

繼續閱讀