天天看點

相關性和因果性:周扒皮原來是大資料應用的先驅者

相關性和因果性:周扒皮原來是大資料應用的先驅者

在大資料時代,相關關系似乎替代了因果關系。然而世界具有複雜性,大資料時代世界似乎被資料統治,是混沌的。

相關關系是指當一個資料變化時,另一個資料也可能随之變化,不論是這兩個資料也沒有必然聯系。相關關系有可能是正相關也有可能是負相關,有可能是強相關也有可能是弱相關。

因果關系是指當一個作為原因的資料變化時,另一個作為結果的資料在一定程度發生變化,這兩個資料存在着必然聯系。因果關系可能是線性關系,也可能是非線性關系。

大資料來了,相關性的凸顯,使我們看到了以前不曾注意的聯系,掌握了以前很難了解的複雜系統。通過相關性的研究,可以幫助企業賺錢,幫助政府決策就夠了,不要講究“為什麼”,至于因果關系就讓科學家們慢慢琢磨去吧。

相關性倒不是什麼新鮮話題,于是乎我想起了地主周扒皮。上世紀四十年代,中國農村某地有個地主叫周扒皮,他雇傭了幾個長工為他種地,周扒皮不可能懂得相關關系和因果關系,但他很狡猾,他悟出了兩個現象之間的聯系,公雞一叫,太陽不久就會升起。舊時中國農民有個習慣,日出而作,日落而息。于是,每天半夜他到雞窩旁學雞叫,引得雞窩裡的公雞一起打鳴,然後周扒皮到長工屋大喊:雞都叫了,快下地幹活。

顯然,公雞叫,太陽升這兩個事兒之間并沒有什麼因果關系,他們之間僅僅是相關關系,因為不能認為公雞叫是太陽升的原因,太陽升是公雞叫的結果。如果把天下的公雞都殺了,太陽從此不升起來了,因果關系才能得到驗證。但周扒皮利用相關關系延長了長工的勞動時間,達到了剝削的目的。

相關性和因果性:周扒皮原來是大資料應用的先驅者

古時候沒有天氣預報,人們往往根據蛙鳴預測有沒有雨,但雨水不應是蛤蟆叫出來的。地震前動物往往有異常表現,但地震不應是阿貓阿狗鬧出來的。但是了解這些現象之間的相關關系往往有用處。

有些學者用世界的複雜性解釋大資料複雜性,認為這個世界是混亂的,世界上大多數發生的事是碰巧出現的,完全不受定律和因果性的支配,但這個世界又是資料的,混亂性隻有使用大資料才能進行說明。這些觀點又用蝴蝶效應進行了說明。據說地球一端更多一隻蝴蝶煽動了一下翅膀能引起地球另一端一場暴風雨,并将這一現象引人複雜性科學,是指在一個動力系統中,初始條件下微小的變化能帶動整個系統長期巨大的連鎖反映。我們不懷疑複雜适應系統理論的科學性,但實在無法驗證中國哪一場暴風雨是由美國的哪一隻蝴蝶的翅膀引發的,更無法分析其相關性。

科學研究的現象都是可重複的,重複考研在實驗室中複制,也可以在現實世界中産生。蝴蝶翅膀和暴風雨的關系顯然不能在實驗室中實驗,但我們也無法在現實世界中取得它們相關性的資料。我奶奶和我講過她父親的故事,有一天我奶奶的父親在祖墳裡看到了一隻狐狸,第二年我奶奶的父親便娶了一個美如妖的媳婦,就是我奶奶的母親,但這種事情以後再也沒有發生過,不能重複。千年一現的事物隻能是傳說,不是科學研究的對象。實驗室中的實驗結果每一次都會有差異,我們通過統計平均,在變化中研究規律,因而千年不變的事物也不是科學研究的對象。現實世界産生的大資料在一定條件下是可以重複和多變的,給科學研究提供了基本條件,也對科學研究提出了新的挑戰。

幾千年來,探讨事物之間的因果關系是理、工、農、醫、文幾乎所有科學研究的重要目的。相關性和因果性是哲學問題,哲學家、數學家、統計學家、實體學家、醫學家、經濟學家大都将尋找自身研究領域中的因果關系當做一生的追求。古希臘哲學家說:“我甯肯找到一個因果關系的說明,不願獲得一個波斯王位。”千百年,雖然哲學家思辯方式已深入人心,老百姓還是相信事出有因,宗教人士宣傳因果報應。

在研究相關關系和因果關系方面,統計學做出了巨大貢獻。統計學提出了相關系數,通過計算相關系數判斷事物之間的相關關系,對相關系數教學統計檢驗,若通過檢驗,證明事物之間的相關程度高,便可以進一步做回歸分析。在計算相關系數時,首先要通過理論研究和定性分析篩選變量,對有内在聯系的資料做相關分析。與大資料思維不同,統計學認為公雞叫與太陽升、蛙鳴與下雨,它們之間沒有内在聯系,即無因果關系,屬于虛假相關,盡管相關系數可能很高,也沒有做回歸分析的必要了。

在回歸分析中,設xi為自變量,設yi為因變量,統計學的研究幾乎窮盡了因果關系的所有可能。對一因一果的現象,可以建立一進制回歸模型;對多因一果的現象,可以建立多元回歸模型;對一因多果的現象,可以建立路徑分析等模型;對多因多果的現象,可以建立聯立方程等模型。

顯然,回歸模型比相關系數進了一步,它可以解釋資料之間作用機制和作用的大小。但回歸模型即使通過了各種統計檢驗,也可能隻在一定程度上說明事物之間的因果關系。模型的自變量不一定是原因,因變量不一定是結果。xi與yi之間的因果關系是否成立,還要由統計學所應用領域的專家來判斷,如經濟學家、管理學家、生物學家、醫學家等,并大量的實踐得到檢驗。統計模型隻能說包含真正因果關系的可能性較大,二真值在哪裡?上帝知道。

大資料可了解為大而複雜的資料,具有異母體、噪音累積、虛假相關、内生性、時變性等,我們幾乎被資料包圍。在這種資料環境下,尋找資料之間因果關系非常困難,也有觀點認為在大資料時代,探索因果關系幾乎不可能,因而因果關系消失了,相關關系替代了因果關系。但我們也應看到,在大資料環境下,做相關性的研究也非常困難,幾十萬個樣本規模,幾十萬個次元,甚至更多,怎麼計算相關系數?如果不用相關系數,用什麼方法?

相關關系是比因果關系更寬泛的概念,事物之間有相關關系不一定存在因果關系,有因果關系必定有相關關系。相關分析是因果分析的基礎,因果分析是相關分析的深化。大資料的相關關系不僅沒有替代因果關系,反而給因果關系的研究提供了更廣泛的發展空間。

醫療大資料、藥物研發大資料、基因大資料給精準醫療、藥物研究等領域帶來一切變革,但僅靠相關關系很難找到病因,無法對症下藥,藥物的研發也很難針對各種病症,當然也不需要建立起因果模型後再實踐。阿司匹林是治療感冒的藥,後來人們發現這種藥對預防心腦血管疾病有療效,經過大量臨床,發現阿司匹林對預防心腦血管疾病療效顯著,有相關關系。而後,對阿司匹林進行藥理分析,才發現阿司匹林中含有治療心腦血管疾病的藥物成分,建立了因果關系。

那麼我們期望大資料引來因果分析的一場革命吧。

 原文釋出時間為:2016-12-03

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀