天天看點

傳統的資料挖掘算法,主要有哪些?

(1)聚類,又稱群分析,是研究(樣品或名額)分類問題的一種統計分析方法,針對資料的相似性和差異性将一組資料分為幾個類别。屬于同一類别的資料間的相似性很大,但不同類别之間資料的相似性很小,跨類的資料關聯性很低。企業通過使用聚類分析算法可以進行客戶分群,在不明确客戶群行為特征的情況下對客戶資料從不同次元進行分群,再對分群客戶進行特征提取和分析,進而抓住客戶特點推薦相應的産品和服務。

(2)分類,類似于聚類,但是目的不同,分類可以使用聚類預先生成的模型,也可以通過經驗資料找出一組資料對象的共同點,将資料劃分成不同的類,其目的是通過分類模型将資料項映射到某個給定的類别中,代表算法是CART(分類與回歸樹)。企業可以将使用者、産品、服務等各業務資料進行分類,建構分類模型,再對新的資料進行預測分析,使之歸于已有類中。分類算法比較成熟,分類準确率也比較高,對于客戶的精準定位、營銷和服務有着非常好的預測能力,幫助企業進行決策。

(3)回歸,反映了資料的屬性值的特征,通過函數表達資料映射的關系來發現屬性值之間的一覽關系。它可以應用到對資料序列的預測和相關關系的研究中。企業可以利用回歸模型對市場銷售情況進行分析和預測,及時作出對應政策調整。在風險防範、反欺詐等方面也可以通過回歸模型進行預警。

傳統的資料方法,不管是傳統的OLAP技術還是資料挖掘技術,都難以應付大資料的挑戰。首先是執行效率低。傳統資料挖掘技術都是基于集中式的底層軟體架構開發,難以并行化,因而在處理TB級以上資料的效率低。其次是資料分析精度難以随着資料量提升而得到改進,特别是難以應對非結構化資料。

在人類全部數字化資料中,僅有非常小的一部分(約占總資料量的1%)數值型資料得到了深入分析和挖掘(如回歸、分類、聚類),大型網際網路企業對網頁索引、社交資料等半結構化資料進行了淺層分析(如排序),占總量近60%的語音、圖檔、視訊等非結構化資料還難以進行有效的分析。

  人工智能、大資料、雲計算和物聯網的未來發展值得重視,均為前沿産業,多智時代專注于人工智能和大資料的入門和科譜,在此為你推薦幾篇優質好文:

資料統計分析和資料挖掘有何差別?

http://www.duozhishidai.com/article-11047-1.html

資料挖掘的聚類算法和優勢

http://www.duozhishidai.com/article-12942-1.html

如何通過自學,成為資料挖掘“高手”?

http://www.duozhishidai.com/article-9796-1.html

資料分析與資料挖掘的差別和聯系?

http://www.duozhishidai.com/article-9800-1.html

建構一個資料挖掘模型,主要分為哪幾步?

http://www.duozhishidai.com/article-9719-1.html

多智時代-人工智能和大資料學習入門網站|人工智能、大資料、物聯網、雲計算的學習交流網站

傳統的資料挖掘算法,主要有哪些?

繼續閱讀