天天看點

大咖 | 王漢生:從資料到價值的轉化,回歸分析的“道”與“術”

學過統計學的同學們都知道一件事情,回歸分析師資料分析的一個非常重要的模型方法。而且這些模型很可能是線性的、非線性的,也可能是參數的、非參數的,甚至是一進制的、多元的,低維的、高維的,不盡相同。是以,把資料轉化為價值,需要一個非常重要且精妙的思想方法:回歸分析。

另外,這些都是在“術”的層面讨論回歸分析。除了“術”,回歸分析還有一個更高的“道”的層面。

回歸分析的“道”

在這個層面,回歸分析可以被抽象成為一種重要的思想。在這種思想的指引下,人們可以把一個業務問題定義成一個資料可分析問題。什麼樣的問題可以被看作資料可分析問題呢?隻需要回答兩點:第一,Y是什麼;第二,X是什麼。

Y,俗稱因變量,即因為别人的改變而改變的變量。在實際應用中,Y刻畫的是業務的核心訴求,是科學研究的關鍵問題。

舉一個征信方面的例子。對于征信而言,業務的核心名額是什麼?就是隔壁老王找我借錢,結果有兩種:他還給我還是不還給我。如果還,定義老王的Y=0,這說明老王是好人;如果不還,定義老王的Y=1,這說明老王是壞人。這就是征信的核心業務訴求,即因變量Y。在這種情況下,因變量是一個取值為0-1的變量,俗稱0-1變量。

大咖 | 王漢生:從資料到價值的轉化,回歸分析的“道”與“術”

而對于車險而言,業務的核心名額就是是否出險。比如隔壁老王買了我家車險,接下來12個月,他是否會出險呢?如果他出險,定義老王的Y=1,這說明老王是個馬路殺手;如果他不出險,定義老王的Y=0,這說明老王是個天使。這種情況下,因變量Y又是一個取值為0-1的因變量。

大咖 | 王漢生:從資料到價值的轉化,回歸分析的“道”與“術”

對于車險而言,還有一個核心的業務名額,就是賠付金額。也就是說,一旦出險,保險公司到底要賠多少。例如,老王、老李都買了我家車險,結果這兩個客戶都出險了。老王屬于輕微刮蹭,保險公司賠付600元。那麼,對于賠付金額這個業務名額而言,老王的因變量Y=600(元)。老李在高速公路上出了一次大車禍,人和車都傷得不輕,保險公司賠付60000元。那麼,老李的因變量Y=60000(元)。這種情況下的因變量,即賠付金額,是一個連續的取值為正的因變量。如果再取一個對數,那麼就是一個取值可以是正負無窮的、連續的因變量。

人類醫學的一個重要使命就是攻克癌症,為此,科學家需要了解不同類型癌症的形成機制。隔壁老王,還有馬路對面的老李,平時看起來身體都倍兒棒,吃嘛嘛香。可是,老王得了某種癌症,而老李沒有。對于這個問題,老王的因變量Y=1,表示老王是個倒黴蛋;而老李的因變量Y=0,表示老李不是倒黴蛋。是以,這又是一個取值為0-1的變量。

大咖 | 王漢生:從資料到價值的轉化,回歸分析的“道”與“術”

是以,我們可以得出結論:Y就是實際業務的核心訴求,或者科學研究的關鍵問題。

X是什麼?

X就是用來解釋Y的相關變量,可以是一個,也可以是很多個。我們通常把X稱作解釋性變量。回歸分析的任務就是,通過研究X和Y的相關關系,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。那麼,X到底是什麼樣的?

對于征信而言,我們已經讨論了,Y=0或者1,表示隔壁老王是否還錢,這是業務的核心名額。當老王找我借錢的那個時刻,我并不知道老王将來是否會還錢,也就是說,我不知道老王的Y。怎麼辦?我隻能通過當時能夠看得到的,關于老王的X,去預測老王的Y。這種預測是否會100%準确呢?答:基本不可能。但是,希望能夠做得比拍腦袋準确,這是非常有可能的。為此,我們需要尋找優質的X。

舉一個例子,假設老王想找我借1萬元現金,我得想想,他會還嗎?此時,如果知道他家境富裕,房産價值幾千萬元,我就不會擔心他不還錢。因為如果他不還錢,可以用他的房子進行抵押。這說明充足的實物資産,尤其是可以抵押的實物資産,是有可能極大地影響一個人的還錢行為的。如果這個業務分析是正确的,那麼可以定義很多X,用于描述老王的财産情況。例如,X1表示是否有房;X2表示是否有車;X3表示是否有黃金首飾可以抵押,等等。這些X都是圍繞老王的實物資産設定的。

除了實物資産,老王還有哪些特征有可能影響他的還錢行為呢?如果老王月工資收入10萬元,那麼還款1萬元,不是小菜一碟嗎?相反,如果老王月工資收入1000元,估計吃飯都有問題,哪來的錢還呢?這說明老王的收入可能同他的還款行為有相關關系。那麼,是否可以構造一系列的X,用于描述老王的收入情況呢?例如,可以重新定義X1是老王的工資收入;X2是老王的股票收入;X3是老王太太的收入,等等。于是,樸素的業務直覺又引導産生了一系列新的X變量,它們都是圍繞老王的收入設定的。

除了實物資産、收入,老王還有什麼值錢的呢?有,老王有自己在社交圈中的尊嚴。就像電影《老炮兒》裡面的頑主六爺那樣,面子老大了,不會為了萬把塊錢去賴賬,然後讓街坊鄰居、同僚朋友都笑話,丢不起那人。如果老王是一個這樣的人,那他的還款意願會很強烈。這個樸素的業務直覺說明,一個人的社交圈即他的社交資産是可以影響他的還款行為的。如果這個直覺是對的,那麼哪些名額能刻畫一個人的社交資産呢?例如,定義X1是老王的微信好友數量;X2是他的微網誌好友數量;X3是他的電話本上的好友數量;X4是他的QQ好友數量,等等。又可以生成一系列新的X變量,它們都是圍繞老王的社交資産設定的。

由此可以看出,對于征信這個業務問題而言,簡單地進行頭腦風暴,就産生了許多X變量。是以,依賴于人們的想象力以及資料采集能力,可以産生成千上萬,甚至上百萬、上千萬個X變量。有了X,也就有了Y。至此,回歸分析“道”的使命已經完成,因為一個業務問題已經被定義成資料可分析問題。

回歸分析的“術”

接下來,從“術”的層面探讨,回歸分析還要完成什麼使命。一般而言,至少對于參數化的線性回歸模型來說,它要完成三個重要的使命。

使命1:回歸分析要去識别并判斷,哪些X變量是同Y真的相關,哪些不是。而那些不相關的X變量會被抛棄,不會被納入最後的預測模型。因為不幹活的人多了會搗蛋,即沒有用的X不會提高Y的預測精度,而且會狠狠地搗蛋,拉後腿,是以必須抛棄。關于這方面的統計學論述很多,以至于統計學中有一個非常重要的領域,叫做“變量選擇”。

使命2:有用的X變量同Y的相關關系是正的還是負的。也就是說,要把一個大概的方向判斷出來。例如,對于老王的借貸還款行為而言,老王的股票收入同他的還款行為可能性是正相關,還是負相關?如果是正相關,那麼老王的股票收入越高,還款能力越強,我越敢借錢給他;如果是負相關,那麼老王的股票收入越高,說明他賭性越大,我越不敢借錢給他。

使命3:賦予不同X不同的權重,也就是不同的回歸系數,進而可以知道不同變量之間的相對重要性。例如,老王、老李都找我借錢。老王每月基本工資X1=1(萬元),但是股票收入X2=0。老李恰恰相反,沒有基本工資,是以X1=0,但是每個月股票收入X2=1(萬元)。請問哪一個還款能力更強?請注意,他們的月總收入都是1萬元。但他們的還款能力恐怕是不同的。此時,如果我們能夠通過資料模組化,賦予X1和X2不同的權重,也就是不同的回歸系數,這個問題就容易回答了。

這就是回歸分析要完成的三個使命:識别重要變量;判斷相關性的方向;估計權重(回歸系數)。

簡單總結一下。什麼是回歸分析?從“道”的層面而言,回歸分析就是一種把業務問題定義成一個資料可分析問題的重要思想。而從“術”的層面,回歸分析要完成三個重要的使命。

再舉一個例子,有一次參觀一家世界500強的制造企業,對方意識到,資料之于企業非常重要。是以,集團特意成立了大資料部門,購買了幾百台高性能伺服器,并配備所有需要的存儲、軟硬體環境,以及人才。

然後,資料部門的老大非常驕傲地介紹他們這個部門計算機有多牛,做了哪些有趣的分析。但是,從熊大的角度看,這些分析都是趣味性很大,可沒有樸素的業務價值。

熊大終于忍不住問了一個問題:“請問,咱們大資料部門,在集團内部主要支援哪些業務部門?”對方腰闆一挺,大聲回答:“所有業務部門!”

大家覺得可信嗎?反正我不信。企業這麼大,實話實說,一定有大量的甚至大多數業務部門同資料無關,至少現在是這樣。就在這時,旁邊的一個業務部門的老大忍不住了,說:“不對啊,我們就覺得你們對我們支援不夠!沒什麼支援啊!”資料部門老大很生氣:“你提需求啊!隻要你提需求,我都能幫你搞定。”結果業務部門老大一臉懵圈:“我提不出需求啊。”

這是一個非常典型的問題。業務部門就是資料部門的客戶,可是,客戶隻知道自己需要資料分析支援,但是提不出需求。為什麼?大家還記得回歸分析的理念嗎?即從道的層面幫助我們把業務問題定義為資料可分析問題。而業務部門的絕大多數人員沒有受過這樣的訓練,是以,無法洞見自己正在操心的業務問題,其實是資料可分析的。為此,他隻需要把Y定義清楚,給一些關于X的想法,剩下的事情,資料分析的小夥伴們就可以全力以赴了。

是以,從這個角度看,資料之于企業的價值,最需要被普及教育的,不是資料分析部門,而是業務部門。當然,資料分析部門也需要。隻有全員都具備樸素的資料價值觀,都使用同一種回歸分析的語言,需求才有可能被說清楚。

原文釋出時間為:2017-12-8

本文作者:馬文

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀