讀《資料挖掘-實用機器學習技術》筆記（二）

在了解這些資料挖掘技術是如何工作以前，首先必須知道資料中的結構模式是如何表達的。機器學習所能發現的模式有許多不同的表達方式，每一種方式就是一種推斷資料輸出結構的技術。一旦了解了輸出結構的表示方法，就向資料輸出結構是如何産生的了解前進了一大步。

決策表和決策樹。決策樹就是分治思想。

如果是數值屬性，一般在一個節點上的測試通常是判斷這個數值是否大于或者小于某一個事先定義的常量。給出一個二叉分裂或者三叉，多個。實數測試的是一個區間，而不是一個常量。也可以落在區間以下、區間内合區間以上的判斷實行三叉分裂。一個數值屬性通常要在給出的任何一條從樹根到葉子的路徑上被測試多次，每一次測試都會采用一個不同的常量。

殘缺值是一個顯而易見的問題。當在一個節點上所測試的屬性值殘缺時，就不能确定應該将它配置設定到哪個分支上。有時将殘缺值作為屬性的一個獨立的值來處理。否則，就應該采用一個特殊的殘缺值的處理方法，如果是實數一般用均值，枚舉型，一般用分類最多的執行個體分支上。

為了有效地建樹，需要有一種觀察資料的好方法，因為通過觀察可以判斷出哪個屬性有可能成為用于測試的最佳屬性，以及應該采用哪種适當的測試方法。

對不同屬性組合分類（資料）的評估是一項十分乏味辛苦的工作。

從一個決策樹上直接地讀出一族規則是容易的。每一片葉子可以産生一條規則。規則的先決條件包含了從根到葉子路徑上所有節點的條件，規則的結論是葉子上标注的類。這個過程能産生明确的規則，他們執行的次序是無關的。但是，通常需要對從決策樹上直接讀出的規則的複雜度遠遠超出所需。素以，為了去除一些備援的測試，常常需要對從決策書上得到的規則進行修剪。

但是，決策樹不易表示出隐含在一個規則集裡的不同規則間的邏輯或關系，是以，将一個普通的規則集合轉換成一個決策樹并不是十分直截了當的，當規則擁有相同的結構，卻擁有不同屬性時就是反映這個問題的一個很好的例子。

關聯規則：恩那個狗預測任何屬性，不僅僅是類，是以關聯規則也能預測屬性的組合，除此以外關聯規則與分類規則并沒有什麼不同。關聯規則在使用的時候不想分類規則那樣被組合成一個規則集來使用。不同的關聯規則揭示出來資料集的不同規律，通常用來預測不同的事物。一個關聯規則的覆寫量是關聯規則能夠正确預測的執行個體數量，通常稱為支援。正确率通常稱為置信度，是将正确預測的執行個體數量表示為它在關聯規則應用所涉及的全部執行個體中占據的比例。

包含例外的規則：分類規則的一個自然擴充就是允許規則包含例外。它是在現有的規則上使用例外表達法來遞增地修改一個規則集，而不需要重建立立整個規則集。

如果僅僅修改原先規則，不能簡單地改變這些規則中的屬性值為測試邊界，并不能解決問題，因為用來建立規則集的執行個體也會被錯分。

包含關系的規則：命題規則能夠充分表達精煉、正确地概念描述。

數值預測樹：在回歸樹的葉子上的數字是到達這個葉子的所有執行個體的平均類值。這個數比回歸公式更大或更複雜。如果計算CPU性能明顯小于由回歸公式計算的。回歸樹能做出更加精确的預測，是因為在這個問題上，一個簡單線性模型的資料表達能力較差。然而，回歸樹的規模較大，很繁瑣，也很難對它進行解釋。

将回歸公式和回歸樹相結合是一個可行的方案。一個在葉節點包含了線性公式，即回歸公式，而不是一個預測值，這個樹稱為模型樹。模型樹用多個線性修補來逼近連續函數。這是一種比線性回歸或者回歸樹更好的表達形式。

基于執行個體的表達：訓練就是記住了一個訓練執行個體集，在遇到一個新的執行個體時，就會在記憶中找出與之最相似的一個訓練執行個體。唯一的問題是如何了解“相似”，從執行個體集衆提取出知識，儲存執行個體本身，并且将類未知的新執行個體與現有的類已知的執行個體聯系起來進行操作。

聚類：聚類操作隻不過是通向結構描述一個步驟。

知識表達傳統上是人工智能的一個重要主題。

沖突解決政策。

下一章，将要研究一些針對特定資料集，采用的算法。

讀《資料挖掘-實用機器學習技術》筆記（二）

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告