資料挖掘算法（十大算法）

概念描述

資料挖掘算法是根據資料建立資料挖掘模型的一組試探法和計算。為了建立模型，算法将首先分析您提供的資料，并查找特定類型的模式和趨勢。算法使用此分析的結果來定義用于建立挖掘模型的最佳參數。然後，這些參數應用于整個資料集，以便提取可行模式和詳細統計資訊。

算法根據您的資料建立的挖掘模型可以采用多種形式，這包括：

說明資料集中的事例如何相關的一組分類。

預測結果并描述不同條件是如何影響該結果的決策樹。

預測銷量的數學模型。

說明在事務中如何将産品分組到一起的一組規則，以及一起購買産品的機率。

算法分類

1：C4.5

C4.5就是一個決策樹算法，它是決策樹（決策樹也就是做決策的節點間的組織方式像一棵樹，其實是一個倒樹）核心算法ID3的改進算法，是以基本上了解了一半決策樹構造方法就能構造它。決策樹構造方法其實就是每次選擇一個好的特征以及分裂點作為目前節點的分類條件。C4.5比ID3改進的地方時：

ID3選擇屬性用的是子樹的資訊增益（這裡可以用很多方法來定義資訊，ID3使用的是熵（entropy）（熵是一種不純度度量準則）），也就是熵的變化值，而C4.5用的是資訊增益率。也就是多了個率嘛。一般來說率就是用來取平衡用的，就像方差起的作用差不多，比如有兩個跑步的人，一個起點是10m/s的人、其1s後為20m/s；另一個人起速是1m/s、其1s後為2m/s。如果僅算內插補點那麼兩個差距就很大了，如果使用速度增加率（加速度）來衡量，2個人就是一樣的了。在這裡，其克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足。在樹構造過程中進行剪枝，我在構造決策樹的時候好讨厭那些挂着幾個元素的節點。對于這種節點，幹脆不考慮最好，不然很容易導緻overfitting。對非離散資料都能處理，這個其實就是一個個式，看對于連續型的值在哪裡分裂好。也就是把連續性的資料轉化為離散的值進行處理。能夠對不完整資料進行處理，這個重要也重要，其實也沒那麼重要，缺失資料采用一些方法補上去就是了。

2：CART

CART也是一種決策樹算法！相對于上着有條件實作一個節點下面有多個子樹的多元分類，CART隻是分類兩個子樹，這樣實作起來稍稍簡便些。是以說CART算法生成的決策樹是結構簡潔的二叉樹。

3：KNN(K NearestNeighbours)

這個很簡單，就是看你周圍的K個人（樣本）中哪個類别的人占的多，哪個多，那我就是多的那個。實作起來就是對每個訓練樣本都計算與其相似度，是Top-K個訓練樣本出來，看這K個樣本中哪個類别的多些，誰多跟誰。

4：Naive Bayes

(樸素貝葉斯NB)

在衆多的分類模型中，應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive BayesianModel，NBC）。樸素貝葉斯模型發源于古典數學理論，有着堅實的數學基礎，以及穩定的分類效率。同時，NBC模型所需估計的參數很少，對缺失資料不太敏感，算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此，這是因為NBC模型假設屬性之間互相獨立，這個假設在實際應用中往往是不成立的，這給NBC模型的正确分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時，NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時，NBC模型的性能最為良好。

NB認為各個特征是獨立的，誰也不關誰的事。是以一個樣本（特征值的集合，比如“資料結構”出現2詞，“檔案”出現1詞），可以通過對其所有出現特征在給定類别的機率相乘。比如“資料結構”出現在類1的機率為0.5，“檔案”出現在類1的機率為0.3，則可認為其屬于類1的機率為0.5*0.5*0.3。

5：Support VectorMachine

(支援向量機SVM)

SVM就是想找一個分類得最”好”的分類線/分類面（最近的一些兩類樣本到這個”線”的距離最遠）。這個沒具體實作過，上次聽課，那位老師自稱自己實作了SVM，敬佩其鑽研精神。常用的工具包是LibSVM、SVMLight、MySVM。

6：EM(期望最大化)

這個我認為就是假設資料時由幾個高斯分布組成的，是以最後就是要求幾個高斯分布的參數。通過先假設幾個值，然後通過反複疊代，以期望得到最好的拟合。

7：Apriori

這個是做關聯規則用的。不知道為什麼，一提高關聯規則我就想到購物籃資料。這個沒實作過，不過也還要了解，它就是通過支援度和置信度兩個量來工作，不過對于Apriori，它通過頻繁項集的一些規律（頻繁項集的子集必定是頻繁項集等等啦）來減少計算複雜度。

8：FP-Tree

(Miningfrequent patterns without candidate generation)

這個也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一種緊縮的資料結構來存儲查找頻繁項集所需要的全部資訊。采用算法：将提供頻繁項集的資料庫壓縮到一棵FP-tree來保留項集關聯資訊，然後将壓縮後的資料庫分成一組條件資料庫（一種特殊類型的投影資料庫），每個條件資料庫關聯一個頻繁項集。

9：PageRank

大名鼎鼎的PageRank大家應該都知道（Google靠此專利發家，其實也不能說發家啦!）。對于這個算法我的了解就是：如果我指向你（網頁間的連接配接）則表示我承認你，則在計算你的重要性的時候可以加上我的一部分重要性（到底多少，要看我自己有多少和我共承認多少個人）。通過反複這樣來，可以求的一個穩定的衡量各個人（網頁）重要性的值。不過這裡必須要做些限制（一個人的開始預設重要性都是1），不然那些值會越來越大越來越大。

10：HITS

HITS也是一個連接配接分析算法，它是由IBM首先提出的。在HITS，每個節點（網頁）都有一個重要度和權威度（Hubs and authorities,我也忘了具體的翻譯是什麼了）。通過反複通過權威度來求重要度，通過重要度來求權威度得到最後的權威度和重要度。

11：K-Means

K-Means是一種最經典也是使用最廣泛的聚類方法，時至今日任然有很多基于其的改進模型提出。K-Means的思想很簡單，對于一個聚類任務（你需要指明聚成幾個類，當然按照自然想法來說不應該需要指明類數，這個問題也是目前聚類任務的一個值得研究的課題），首先随機選擇K個簇中心，然後反複計算下面的過程直到所有簇中心不改變（簇集合不改變）為止：步驟1：對于每個對象，計算其與每個簇中心的相似度，把其歸入與其最相似的那個簇中。

步驟2：更新簇中心，新的簇中心通過計算所有屬于該簇的對象的平均值得到。

k-means 算法的工作過程說明如下：首先從n個資料對象任意選擇k 個對象作為初始聚類中心；而對于所剩下其它對象，則根據它們與這些聚類中心的相似度（距離），分别将它們配置設定給與其最相似的（聚類中心所代表的）聚類；然後再計算每個所獲新聚類的聚類中心（該聚類中所有對象的均值）；不斷重複這一過程直到标準測度函數開始收斂為止。一般都采用均方差作為标準測度函數. k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。

12：BIRCH

BIRCH也是一種聚類算法，其全稱是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是隻是看了理論沒具體實作過。是一個綜合的層次聚類特征(Clustering Feature, CF)和聚類特征樹(CF Tree)兩個概念，用于概括聚類描述。聚類特征樹概括了聚類的有用資訊，并且占用空間較中繼資料集合小得多，可以存放在記憶體中，進而可以提高算法在大型資料集合上的聚類速度及可伸縮性。

BIRCH算法包括以下兩個階段：

1）掃描資料庫，建立動态的一棵存放在記憶體的CF Tree。如果記憶體不夠，則增大門檻值，在原樹基礎上構造一棵較小的樹。

2）對葉節點進一步利用一個全局性的聚類算法，改進聚類品質。

由于CF Tree的葉節點代表的聚類可能不是自然的聚類結果，原因是給定的門檻值限制了簇的大小，并且資料的輸入順序也會影響到聚類結果。是以需要對葉節點進一步利用一個全局性的聚類算法，改進聚類品質。

13：AdaBoost

AdaBoost做分類的一般知道，它是一種boosting方法。這個不能說是一種算法，應該是一種方法，因為它可以建立在任何一種分類算法上，可以是決策樹，NB，SVM等。

Adaboost是一種疊代算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器(強分類器)。其算法本身是通過改變資料分布來實作的，它根據每次訓練集之中每個樣本的分類是否正确，以及上次的總體分類的準确率，來确定每個樣本的權值。将修改過權值的新資料集送給下層分類器進行訓練，最後将每次訓練得到的分類器最後融合起來，作為最後的決策分類器。使用adaboost分類器可以排除一些不必要的訓練資料，并将關鍵放在關鍵的訓練資料上面。

14：GSP

GSP，全稱為Generalized Sequential Pattern(廣義序貫模式)，是一種序列挖掘算法。對于序列挖掘沒有仔細看過，應該是基于關聯規則的吧！網上是這樣說的：

GSP類似于Apriori算法，采用備援候選模式的剪除政策和特殊的資料結構-----哈希樹來實作候選模式的快速訪存。

GSP算法描述:

1）掃描序列資料庫，得到長度為1的序列模式L1，作為初始的種子集。

2）根據長度為i 的種子集Li ，通過連接配接操作和修剪操作生成長度為i+1的候選序列模式Ci+1；然後掃描序列資料庫，計算每個候選序列模式的支援度，産生長度為i+1的序列模式Li+1，并将Li+1作為新的種子集。

3）重複第二步，直到沒有新的序列模式或新的候選序列模式産生為止。

産生候選序列模式主要分兩步：

連接配接階段：如果去掉序列模式s1的第一個項目與去掉序列模式s2的最後一個項目所得到的序列相同，則可以将s1與s2進行連接配接，即将s2的最後一個項目添加到s1中。

修切階段：若某候選序列模式的某個子序列不是序列模式，則此候選序列模式不可能是序列模式，将它從候選序列模式中删除。

候選序列模式的支援度計算：對于給定的候選序列模式集合C，掃描序列資料庫，對于其中的每一條序列s,找出集合C中被s所包含的所有候選序列模式，并增加其支援度計數。

15：PrefixSpan

又是一個類似Apriori的序列挖掘。

其中經典十大算法為：C4.5，K-Means，SVM，Apriori，EM，PageRank，AdaBoost，KNN，NB和CART。

上面的内容來源全部轉載自網絡搜尋，百度百科内容最多。

資料挖掘算法（十大算法）

繼續閱讀

規範化

偏最小二乘法 Partial Least square

Tensorflow lstm實作的小說撰寫預測

分布式資料分析挖掘系統1. 資料分析挖掘

4種序列模式挖掘算法的比較分析

基于負采樣的skip-garm的語言模型實作－R

常用的統計量

分布式檔案系統：lease機制

資料挖掘之CRISP-DM 模型

學習筆記-行政區劃比對缺失補全

資料挖掘Apriori算法定義：減少候選項的數目Apriori 算法減少比較的次數Apriori的缺點改進Apriori算法

資料挖掘之分類名額：召回率、精确度、準确率、虛警率和漏警率

幾種機率語言模型和參數學習方法

資料挖掘中所需的機率論與數理統計知識（補充）

資料挖掘的weka包和資料集