回歸樹與基于規則的模型(part1)--if-then語句

2022-06-03 00:25:13

學習筆記，僅供參考，有錯必糾

回歸樹與基于規則的模型

基于樹的模型由一個或多個針對預測變量的語句組成，它們被用來對資料進行劃分，基于這些劃分，一個特定的模型将用來對結果變量進行預測。

例如，一個簡單的樹模型可以定義為：

在這個例子中，二維的預測變量空間被分為了三塊區域，并且在每一塊區域中，結果變量将被預測為同一個數字。

下圖将這些規則表達在了預測變量空間中：

利用樹模型的術語，我們稱資料進行了兩次切分，并形成了3個最終節點(葉)。最終節點中的模型表達式将被用來計算預測值，表達式可以簡單，可以複雜。

注意到一棵樹生成的語句定義了樣本到任何一個最終節點唯一的一條路徑。一條規則就是一系列的語句，并且它們被展開成了若幹互相獨立的條件，對于上述例子，共有三條規則:

當樣本被多條規則覆寫時，規則可以在一定程度上被簡化或進行剪枝。這種方法相對于簡單的樹模型有若幹優勢。

樹模型和規則模型之是以成為非常流行的模組化工具，是基于以下幾個原因：

①首先，它們生成的條件極富解釋力，并且易于實作；

②其次，根據它們建立模型時采用的邏輯，它們能有效地處理各種類型的預測變量(比如稀疏的、偏态的、連續的和分類的)，而不需要對這些變量事先進行預處理；

③此外，這些模型不需要使用者對響應變量與預測變量之間的關系進行指定；

④最後，這些模型可以有效地處理缺失值。

然而，由單一的樹或規則建立的模型也具有一些特定的缺點：

①模型的不穩定性(資料中的微小變動可能會引起樹或規則結構的巨大變化，進而影響解釋性)；