傳統的資料挖掘算法，主要有哪些？

2023-03-12 19:34:28

(1)聚類，又稱群分析，是研究(樣品或名額)分類問題的一種統計分析方法，針對資料的相似性和差異性将一組資料分為幾個類别。屬于同一類别的資料間的相似性很大，但不同類别之間資料的相似性很小，跨類的資料關聯性很低。企業通過使用聚類分析算法可以進行客戶分群，在不明确客戶群行為特征的情況下對客戶資料從不同次元進行分群，再對分群客戶進行特征提取和分析，進而抓住客戶特點推薦相應的産品和服務。

(2)分類，類似于聚類，但是目的不同，分類可以使用聚類預先生成的模型，也可以通過經驗資料找出一組資料對象的共同點，将資料劃分成不同的類，其目的是通過分類模型将資料項映射到某個給定的類别中，代表算法是CART(分類與回歸樹)。企業可以将使用者、産品、服務等各業務資料進行分類，建構分類模型，再對新的資料進行預測分析，使之歸于已有類中。分類算法比較成熟，分類準确率也比較高，對于客戶的精準定位、營銷和服務有着非常好的預測能力，幫助企業進行決策。

(3)回歸，反映了資料的屬性值的特征，通過函數表達資料映射的關系來發現屬性值之間的一覽關系。它可以應用到對資料序列的預測和相關關系的研究中。企業可以利用回歸模型對市場銷售情況進行分析和預測，及時作出對應政策調整。在風險防範、反欺詐等方面也可以通過回歸模型進行預警。

傳統的資料方法，不管是傳統的OLAP技術還是資料挖掘技術，都難以應付大資料的挑戰。首先是執行效率低。傳統資料挖掘技術都是基于集中式的底層軟體架構開發，難以并行化，因而在處理TB級以上資料的效率低。其次是資料分析精度難以随着資料量提升而得到改進，特别是難以應對非結構化資料。

在人類全部數字化資料中，僅有非常小的一部分(約占總資料量的1%)數值型資料得到了深入分析和挖掘(如回歸、分類、聚類)，大型網際網路企業對網頁索引、社交資料等半結構化資料進行了淺層分析(如排序)，占總量近60%的語音、圖檔、視訊等非結構化資料還難以進行有效的分析。

　　人工智能、大資料、雲計算和物聯網的未來發展值得重視，均為前沿産業，多智時代專注于人工智能和大資料的入門和科譜，在此為你推薦幾篇優質好文：

資料統計分析和資料挖掘有何差別？

http://www.duozhishidai.com/article-11047-1.html

資料挖掘的聚類算法和優勢

http://www.duozhishidai.com/article-12942-1.html

如何通過自學，成為資料挖掘“高手”？

http://www.duozhishidai.com/article-9796-1.html

資料分析與資料挖掘的差別和聯系？