天天看點

Apache Spark機器學習3.4 模型估計

3.4 模型估計

在上一節完成了特征集選擇,接下來需要評估模型參數。我們可以使用mllib或者r語言進行評估,并準備分布式的計算。

為了簡化操作,我們使用databricks的作業特性。具體來講,在databricks環境中,前往“job”菜單,建立作業,如下圖所示:

接着,使用者可以選擇notebook來運作,指定叢集并且排程作業。一旦作業被排程,使用者可以監視作業的執行,并收集結果。

在3.2節,我們為選擇的3個模型準備了一些代碼。現在,需要修改這些代碼和上一節讨論的最終特征集,以建立最終的notebook。

換句話說,我們有1個因變量和通過pca和特征選擇得到的17個特征。是以,我們需要将這些變量插入到我們第2節開發的代碼中,以建立我們的notebook。然後,我們将使用spark作業特征以分布式的方式執行這些notebook。

3.4.1 mllib實作

首先,我們為使用線性回歸的因變量s1和使用邏輯回歸的因變量s2,以及決策樹準備資料。然後,将17個選擇的特征加入進去形成可以使用的資料集。

對于線性回歸,我們使用如下代碼:

對于邏輯回歸,我們使用如下代碼:

對于決策樹,我們使用如下代碼:

3.4.2 r notebook實作

為了便于對比,将線性回歸和sem方法寫在同一個r notebook中,将邏輯回歸和決策樹寫在同一個r notebook中。

然後,主要的工作是為每個工作節點排程估算程序,使用databricks環境中的job特征來收集計算結果。

對于線性回歸和sem方法,執行下面的代碼:

對于邏輯回歸和決策樹方法,執行下面的代碼:

我們為每個産品執行了模型的估計。為了簡化讨論,我們聚焦在一個産品上完成模型評估和部署方面的讨論。

繼續閱讀