國際權威的學術組織the ieee international conference on data mining (icdm) 早前評選出了資料挖掘領域的十大經典算法:c4.5, k-means, svm, apriori, em, pagerank, adaboost, knn, naive bayes, and cart.
不僅僅是選中的十大算法,其實參加評選的18種算法,實際上随便拿出一種來都可以稱得上是經典算法,它們在資料挖掘領域都産生了極為深遠的影響。
1.c4.5
c4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是id3算法. c4.5算法繼承了id3算法的優點,并在以下幾方面對id3算法進行了改進:
1) 用資訊增益率來選擇屬性,克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整資料進行處理。
c4.5算法有如下優點:産生的分類規則易于了解,準确率較高。其缺點是:在構造樹的過程中,需要對資料集進行多次的順序掃描和排序,因而導緻算法的低效。
2. the k-means algorithm 即k-means算法
k-means algorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割,k < n。它與處理混合正态分布的最大期望算法很相似,因為他們都試圖找到資料中自然聚類的中心。它假設對象屬性來自于空間向量,并且目标是使各個群組内部的均方誤差總和最小。
3. support vector machines
支援向量機,英文為support vector machine,簡稱sv機(論文中一般簡稱svm)。它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支援向量機将向量映射到一個更高維的空間裡,在這個空間裡建立有一個最大間隔超平面。在分開資料的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是c.j.c burges的《模式識别支援向量機指南》。van der walt 和 barnard 将支援向量機和其他分類器進行了比較。
4. the apriori algorithm
apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這裡,所有支援度大于最小支援度的項集稱為頻繁項集,簡稱頻集。
5. 最大期望(em)算法
在統計計算中,最大期望(em,expectation–maximization)算法是在機率(probabilistic)模型中尋找參數最大似然估計的算法,其中機率模型依賴于無法觀測的隐藏變量(latent variabl)。最大期望經常用在機器學習和計算機視覺的資料集聚(data clustering)領域。
6. pagerank
pagerank是google算法的重要内容。2001年9月被授予美國專利,專利人是google創始人之一拉裡·佩奇(larry page)。是以,pagerank裡的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
pagerank根據網站的外部連結和内部連結的數量和品質倆衡量網站的價值。pagerank背後的概念是,每個到頁面的連結都是對該頁面的一次投票,被連結的越多,就意味着被其他網站投票越多。這個就是所謂的“連結流行度”——衡量多少人願意将他們的網站和你的網站挂鈎。pagerank這個概念引自學術中一篇論文的被引述的頻度——即被别人引述的次數越多,一般判斷這篇論文的權威性就越高。
7. adaboost
adaboost是一種疊代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器 (強分類器)。其算法本身是通過改變資料分布來實作的,它根據每次訓練集之中每個樣本的分類是否正确,以及上次的總體分類的準确率,來确定每個樣本的權值。将修改過權值的新資料集送給下層分類器進行訓練,最後将每次訓練得到的分類器最後融合起來,作為最後的決策分類器。
8. knn: k-nearest neighbor classification
k最近鄰(k-nearest neighbor,knn)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類别,則該樣本也屬于這個類别。
9. naive bayes
在衆多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(decision tree model)和樸素貝葉斯模型(naive bayesian model,nbc)。樸素貝葉斯模型發源于古典數學理論,有着堅實的數學基礎,以及穩定的分類效率。同時,nbc模型所需估計的參數很少,對缺失資料不太敏感,算法也比較簡單。理論上,nbc模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為nbc模型假設屬性之間互相獨立,這個假設在實際應用中往往是不成立的,這給nbc模型的正确分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時,nbc模型的分類效率比不上決策樹模型。而在屬性相關性較小時,nbc模型的性能最為良好。
10. cart: 分類與回歸樹
cart, classification and regression trees。 在分類樹下面有兩個關鍵的思想。第一個是關于遞歸地劃分自變量空間的想法;第二個想法是用驗證資料進行剪枝。
上面的10篇文章的摘要來源全部轉載自網絡搜尋,百度百科内容最多,少量來自中文維基百科以及其他網頁。