天天看點

讀《資料挖掘-實用機器學習技術》筆記(二)

        在了解這些資料挖掘技術是如何工作以前,首先必須知道資料中的結構模式是如何表達的。機器學習所能發現的模式有許多不同的表達方式,每一種方式就是一種推斷資料輸出結構的技術。一旦了解了輸出結構的表示方法,就向資料輸出結構是如何産生的了解前進了一大步。

        決策表和決策樹。決策樹就是分治思想。

        如果是數值屬性,一般在一個節點上的測試通常是判斷這個數值是否大于或者小于某一個事先定義的常量。給出一個二叉分裂或者三叉,多個。實數測試的是一個區間,而不是一個常量。也可以落在區間以下、區間内合區間以上的判斷實行三叉分裂。一個數值屬性通常要在給出的任何一條從樹根到葉子的路徑上被測試多次,每一次測試都會采用一個不同的常量。

       殘缺值是一個顯而易見的問題。當在一個節點上所測試的屬性值殘缺時,就不能确定應該将它配置設定到哪個分支上。有時将殘缺值作為屬性的一個獨立的值來處理。否則,就應該采用一個特殊的殘缺值的處理方法,如果是實數一般用均值,枚舉型,一般用分類最多的執行個體分支上。

       為了有效地建樹,需要有一種觀察資料的好方法,因為通過觀察可以判斷出哪個屬性有可能成為用于測試的最佳屬性,以及應該采用哪種适當的測試方法。

       對不同屬性組合分類(資料)的評估是一項十分乏味辛苦的工作。

       從一個決策樹上直接地讀出一族規則是容易的。每一片葉子可以産生一條規則。規則的先決條件包含了從根到葉子路徑上所有節點的條件,規則的結論是葉子上标注的類。這個過程能産生明确的規則,他們執行的次序是無關的。但是,通常需要對從決策樹上直接讀出的規則的複雜度遠遠超出所需。素以,為了去除一些備援的測試,常常需要對從決策書上得到的規則進行修剪。

      但是,決策樹不易表示出隐含在一個規則集裡的不同規則間的邏輯或關系,是以,将一個普通的規則集合轉換成一個決策樹并不是十分直截了當的,當規則擁有相同的結構,卻擁有不同屬性時就是反映這個問題的一個很好的例子。

      關聯規則:恩那個狗預測任何屬性,不僅僅是類,是以關聯規則也能預測屬性的組合,除此以外關聯規則與分類規則并沒有什麼不同。關聯規則在使用的時候不想分類規則那樣被組合成一個規則集來使用。不同的關聯規則揭示出來資料集的不同規律,通常用來預測不同的事物。一個關聯規則的覆寫量是關聯規則能夠正确預測的執行個體數量,通常稱為支援。正确率通常稱為置信度,是将正确預測的執行個體數量表示為它在關聯規則應用所涉及的全部執行個體中占據的比例。

      包含例外的規則:分類規則的一個自然擴充就是允許規則包含例外。它是在現有的規則上使用例外表達法來遞增地修改一個規則集,而不需要重建立立整個規則集。

      如果僅僅修改原先規則,不能簡單地改變這些規則中的屬性值為測試邊界,并不能解決問題,因為用來建立規則集的執行個體也會被錯分。

      包含關系的規則:命題規則能夠充分表達精煉、正确地概念描述。

      數值預測樹:在回歸樹的葉子上的數字是到達這個葉子的所有執行個體的平均類值。這個數比回歸公式更大或更複雜。如果計算CPU性能明顯小于由回歸公式計算的。回歸樹能做出更加精确的預測,是因為在這個問題上,一個簡單線性模型的資料表達能力較差。然而,回歸樹的規模較大,很繁瑣,也很難對它進行解釋。

      将回歸公式和回歸樹相結合是一個可行的方案。一個在葉節點包含了線性公式,即回歸公式,而不是一個預測值,這個樹稱為模型樹。模型樹用多個線性修補來逼近連續函數。這是一種比線性回歸或者回歸樹更好的表達形式。

      基于執行個體的表達:訓練就是記住了一個訓練執行個體集,在遇到一個新的執行個體時,就會在記憶中找出與之最相似的一個訓練執行個體。唯一的問題是如何了解“相似”,從執行個體集衆提取出知識,儲存執行個體本身,并且将類未知的新執行個體與現有的類已知的執行個體聯系起來進行操作。

      聚類:聚類操作隻不過是通向結構描述一個步驟。

      知識表達傳統上是人工智能的一個重要主題。

      沖突解決政策。

       下一章,将要研究一些針對特定資料集,采用的算法。

繼續閱讀