本節書摘來自華章出版社《營銷資料科學:用r和python進行預測分析的模組化技術》一書中的第2章,作者:[美] 托馬斯 w. 米勒(thomas w. miller) 著 崔立真 鹿旭東 譯,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
“我們是何種人并不由我們的能力決定,這是我們的選擇。”
—2002年美國電影《哈利波特與密室》中
阿爾布斯•鄧寶多爾教授(理查德•哈裡斯飾)
我把自己人生中的很多時間用于工作,這是我的選擇。在準備分析用的資料或在網絡上工作時,我會使用python程式設計語言。在進行模組化或繪圖時,我經常使用r程式設計語言。生活中還有更多選擇,比如,當我完成了電腦程式設計、寫作和教學時,我會去赫莫薩海灘—這也是我的偏好和選擇。
消費者的選擇是生活的一部分,也是營銷資料科學的基礎。如果足夠幸運,我們可以選擇居住地點,選擇是租一間較高價的電梯大廈還是買一套房子。我們還可以選擇自己的工作、同僚、朋友和夫妻;選擇節食和運動、健康和美體;從早餐吃麥片到出門坐汽車—這些無一不是各種選擇的更替。我們所做出的許多選擇其實别人是知道的,我們的生活記錄就存儲在各個公司的資料庫裡。
為了預測消費者的選擇,我們使用了營銷組合中的解釋變量,比如産品的特點、廣告和促銷,或者是分銷管道的類型。我們記錄了消費者的特點、可觀察的行為、調查回報和人口資料。我們還建立了經濟學的離散選擇模型和統計學的廣義線型模型。二者均為營銷資料科學的重要工具。
為了示範選擇方法,我們先從附錄c中的悉尼交通研究開始。悉尼的出行者可以選擇坐汽車或坐火車進城。這個回答是二進制的,是以我們可以應用邏輯斯谛回歸,即帶有分對數連接配接的廣義線性模型。分對數是比值比中的自然對數。
分對數
選擇火車而不是汽車的比值是由一個出行者選擇火車的機率p (train)除以該出行者選擇汽車的機率p (car)而得出的。我們假設兩個機率都是正的,介于0與1之間的開區間,則這個比值比也是正的,介于0與無窮大之間的開區間。
0<p (train)<1
0<p (car)<1

分對數或比值比的對數是一個将正數集映射到所有實數集上的對數。這是對數所要進行的工作。
使用分對數,我們可以寫出等式,用解釋變量的線性組合來連接配接各種選擇(或确切地說,選擇的機率)。這就是分對數的邏輯(或者不妨說是分對數的魔力)。在廣義線性模型中我們把分對數稱為連接配接函數。關于邏輯斯谛回歸的補充讨論請參見附錄a。
在悉尼交通研究中,我們已知乘坐汽車和乘坐火車需要的時間和成本。這些就是本案例中的解釋變量。圖2-1中的矩陣散點圖和圖2-2中的相關熱點圖顯示了這些解釋變量間的配對關系。
這個模型對訓練資料産生的作用如何?基于出行者對汽車或火車的實際選擇而生成的密度晶格反映了預測的正确程度。參見圖2-3。
為了預測每一位出行者對汽車或火車的選擇,我們設定了一個預測機率的臨界值。假設以臨界值0.50來劃分出行者,也就是說,如果坐火車的預測機率大于0.50,我們就可以預測出行者會坐火車。反之,我們将預測出行者會乘坐汽車。由此産生的四格表或混淆矩陣可以反映出我們預測的正确率為82.6%。有很多方式可以評估對某個分類進行預測的精度,比如說邏輯斯谛回歸。這些會在附錄a中進行回顧。
好的資料科學不僅僅是建立等式的問題,也不僅僅是關于數學和統計學的内容。好的資料科學取決于對商務問題的了解。
時間和地點變量是交通方式選擇模型中的解釋變量,但公共管理者對時間和地點變量幾乎無法控制。時間和地點變量代表的是控制變量而不是決策變量。成本變量則有可能成為決策變量,因為在一定程度上成本變量是可以被控制的。
雖然公共管理者在汽油商品市場上幾乎沒有什麼話語權,但他們可以通過向汽油征稅來影響乘坐汽車出行的成本。更為重要的是,公共管理者也可以通過控制公共交通工具的票價來影響乘坐火車出行的成本。
在悉尼交通研究中,333位出行者中有150位(45%)選擇火車作為出行方式。假設公共管理者計劃增加10%的公共交通工具使用量,那麼在保持所有其他變量不變的情況下,火車票價要下降多少才能實作這一目标?我們可以使用相應的邏輯斯谛回歸模型來回答這個問題。
圖2-4為公共管理者提供了一個比較友善的總結。為了制作這個圖表,我們通過設定為平均值來控制乘坐汽車時間、乘坐汽車成本和乘坐火車時間這幾個變量。然後讓乘坐火車成本進行一系列變化,觀察其對估計的乘坐火車的機率所産生的影響。從模型中進行的顯式計算可以看出,如果火車票價下降5美分(澳元)的話,悉尼出行者中的183人(55%)會選擇乘坐火車。
邏輯斯谛回歸是一個廣義線性模型。顧名思義,廣義線性模型是對經典線性回歸模型的歸納和總結。關于廣義線性模型的标準參考見mccullagh、nelder(1989)。firth(1991)也對相關的理論進行了補充修訂。hastie(1992)與venables、ripley(2002)給出了與r程式設計語言相關的模組化範例。lindsey(1997)讨論了各種應用範例。關于邏輯斯谛回歸和廣義線性模型,請參見附錄a中的補充讨論。
有不少很好的資源可以用來幫助了解經濟學和市場調查中的離散選擇模組化。入門性的材料可在經濟學的教材中找到,比如pindyck、rubinfeld(2012)及greene(2012)。關于更進階的讨論,可參閱ben-akiva、lerman(1985)。louviere、hensher、swait(2000)給出了交通和市場調查的範例。train(2003)則提供了離散選擇模組化和估計方法的綜述。
wassertheil-smoller(1990)提供了關于邏輯斯谛回歸過程的基礎性知識以及二進制分類的評價方法。關于更進階的處理方式,可參閱hand(1997)。burnham、anderson(2002)回顧了模型選擇的方法,特别是那些使用了akaike資訊标準或稱為aic準則(akaike,1973)的方法。
正如我們在本書所有實際案例中所看到的,通過分析消費者所做的選擇—在市場所做的選擇、在營銷活動中作為回應所做出的選擇以及作為消費者問卷調查(如聯合調查)的回應所産生的選擇,我們可以回答許多管理上的問題。我們通常使用邏輯斯谛回歸和多項式分對數模型來分析所選擇的資料。
例證2-1顯示了用于分析悉尼交通研究資料的r程式,它采用了sarkar(2008,2014)所述的晶格繪圖工具。與之對應的python程式如例證2-2所示。
例證2-1 預測交通工具的選擇(r)
例證2-2 預測交通工具的選擇(python)