本節書摘來自華章出版社《r語言資料挖掘:實用項目解析》一書中的第2章,第2.6節變量分段,作者[印度]普拉迪帕塔·米什拉(pradeepta mishra),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視
2.6 變量分段
在将連續變量納入模型之前,需要對其進行處理。以cars93資料集中的油箱容量為例,基于油箱容量,我們可以建立一個分類變量,值為高、中和低、低中:

油箱容量的值域為9.2~27。根據邏輯,使用分類差4(也即每個分類之間相差4)完成分類。這些分類定義了變量中的每一個值被配置設定到每一組的方式。最後的輸出表顯示有4個組,最高的油箱容量組隻有4輛車。
變量分段或離散化不僅有助于建立決策樹,在做logistic回歸和其他形式的機器學習模型時也會用到。