3.4 模型估計
在上一節完成了特征集選擇,接下來需要評估模型參數。我們可以使用mllib或者r語言進行評估,并準備分布式的計算。
為了簡化操作,我們使用databricks的作業特性。具體來講,在databricks環境中,前往“job”菜單,建立作業,如下圖所示:
接着,使用者可以選擇notebook來運作,指定叢集并且排程作業。一旦作業被排程,使用者可以監視作業的執行,并收集結果。
在3.2節,我們為選擇的3個模型準備了一些代碼。現在,需要修改這些代碼和上一節讨論的最終特征集,以建立最終的notebook。
換句話說,我們有1個因變量和通過pca和特征選擇得到的17個特征。是以,我們需要将這些變量插入到我們第2節開發的代碼中,以建立我們的notebook。然後,我們将使用spark作業特征以分布式的方式執行這些notebook。
3.4.1 mllib實作
首先,我們為使用線性回歸的因變量s1和使用邏輯回歸的因變量s2,以及決策樹準備資料。然後,将17個選擇的特征加入進去形成可以使用的資料集。
對于線性回歸,我們使用如下代碼:
對于邏輯回歸,我們使用如下代碼:
對于決策樹,我們使用如下代碼:
3.4.2 r notebook實作
為了便于對比,将線性回歸和sem方法寫在同一個r notebook中,将邏輯回歸和決策樹寫在同一個r notebook中。
然後,主要的工作是為每個工作節點排程估算程序,使用databricks環境中的job特征來收集計算結果。
對于線性回歸和sem方法,執行下面的代碼:
對于邏輯回歸和決策樹方法,執行下面的代碼:
我們為每個産品執行了模型的估計。為了簡化讨論,我們聚焦在一個産品上完成模型評估和部署方面的讨論。