淺談資料挖掘與資料分析?
資料分析
和資料挖掘都可以做為“玩資料”的方法論,兩者有很多的共性,也有顯著的差異。從分析的目的來看,資料分析一般是對曆史資料進行統計學上的一些分析,資料挖掘更側重于機器對未來的預測,一般應用于分類、聚類、推薦、關聯規則等。
資料分析(狹義)與資料挖掘的本質都是一樣的,都是從資料裡面發現關于業務的知識(有價值的資訊),進而幫助業務營運、改進産品以及幫助企業做更好的決策.

從分析的過程來看,資料分析更側重于統計學上面的一些方法,經過人的推理演譯得到結論;資料挖掘更側重由機器進行自學習,直接到得到結論。
從分析的結果看,資料分析的結果是準确的統計量,而資料挖掘得到的一般是模糊的結果。 ‘資料分析’的重點是觀察資料,‘資料挖掘’的重點是從資料中發現‘知識規則’KDD(Knowledge
Discover in Database)。
‘資料分析、資料統計’得出的結論是人的智力活動結果,‘資料挖掘’得出的結論是機器從學習集(或訓練集、樣本集)發現的知識規則。
‘資料分析’需要人工模組化,‘資料挖掘’自動完成數學模組化。
資料挖掘與資料分析的主要差別是什麼
1、計算機程式設計能力的要求
作為資料分析很多情況下需要用到成型的分析工具,比如EXCEL、SPSS,或者SAS、R。很多的資料分析人員做的工作都是從原始資料到各種拆分彙總,再經過分析,最後形成完整的分析報告。當然原始資料可以是别人提供,也可以自己提取(作為一名合格的資料分析師,懂點SQL知識是很有好處的)。而資料挖掘則需要有程式設計基礎。為什麼這樣說呢?舉兩個理由:第一個,目前的資料挖掘方面絕大多數是隸屬于計算機系;第二點,在招聘崗位上,國内比較大的公司挂的崗位名稱大多數為‘資料挖掘工程師’。從這兩點就可以明确看出資料挖掘跟計算機跟程式設計有很大的聯系。
2、在對行業的了解的能力
要想成為一名優秀的資料分析師,對于所從事的行業有比較深的了解和了解是必須要具備的,并且能夠将資料與自身的業務緊密結合起來。簡單舉個例子來說,給你一份業務經營報表,你就能在腦海中勾畫出目前經營狀況圖,能夠看出哪裡出現了問題。但是,從事資料挖掘不一定要求對行業有這麼高的要求。
3、專業知識面的要求
資料分析師出對行業要了解外,還要懂得一些統計學、營銷、經濟、心理學、社會學等方面的知識,當然能了解資料挖掘的一些知識會更好。資料挖掘工程師則要求要比較熟悉資料庫技術、熟悉資料挖掘的各種算法,能夠根據業務需求建立資料模型并将模型應用于實際,甚至需要對已有的模型和算法進行優化或者開發新的算法模型。想要成為優秀的資料挖掘工程師,良好的數學、統計學、資料庫、程式設計能力是必不可少的。
總之一句話來概括的話,資料分析師更關注于業務層面,資料挖掘工程師更關注于技術層面。 資料分析師與資料挖掘工程師的相似點:
1、都跟資料打交道。
他們玩的都是資料,如果沒有資料或者搜集不到資料,他們都要丢飯碗。
2、知識技能有很多交叉點。
他們都需要懂統計學,懂資料分析一些常用的方法,對資料的敏感度比較好。
3、在職業上他們沒有很明顯的界限。
很多時候資料分析師也在做挖掘方面的工作,而資料挖掘工程師也會做資料分析的工作,資料分析也有很多時候用到資料挖掘的工具和模型,很多資料分析從業者使用SAS、R就是一個很好的例子。而在做資料挖掘項目時同樣需要有人懂業務懂資料,能夠根據業務需要提出正确的資料挖掘需求和方案能夠提出備選的算法模型,實際上這樣的人一腳在資料分析上另一隻腳已經在資料挖掘上了。
事實上沒有必要将資料分析和資料挖掘分的特别清,但是我們需要看到兩者的差別和聯系,作為一名資料行業的從業者,要根據自身的特長和愛好規劃自己的職業生涯,以尋求自身價值的最大化。
資料分析與資料挖掘的差別
資料分析可以分為廣義的資料分析和狹義的資料分析,廣義的資料分析就包括狹義的資料分析和資料挖掘,我們常說的資料分析就是指狹義的資料分析。
資料分析(狹義):
(1)定義:簡單來說,資料分析就是對資料進行分析。專業的說法,資料分析是指根據分析目的,用适當的統計分析方法及工具,對收集來的資料進行處理與分析,提取有價值的資訊,發揮資料的作用。
(2)作用:它主要實作三大作用:現狀分析、原因分析、預測分析(定量)。資料分析的目标明确,先做假設,然後通過資料分析來驗證假設是否正确,進而得到相應的結論。
(3)方法:主要采用對比分析、分組分析、交叉分析、回歸分析等常用分析方法;
(4)結果:資料分析一般都是得到一個名額統計量結果,如總和、平均值等,這些名額資料都需要與業務結合進行解讀,才能發揮出資料的價值與作用;
資料挖掘:
(1)定義:資料挖掘是指從大量的資料中,通過統計學、人工智能、機器學習等方法,挖掘出未知的、且有價值的資訊和知識的過程。(2)作用:資料挖掘主要側重解決四類問題:分類、聚類、關聯和預測(定量、定性),資料挖掘的重點在尋找未知的模式與規律;如我們常說的資料挖掘案例:啤酒與尿布、安全套與巧克力等,這就是事先未知的,但又是非常有價值的資訊;
(3)方法:主要采用決策樹、神經網絡、關聯規則、聚類分析等統計學、人工智能、機器學習等方法進行挖掘;
(4)結果:輸出模型或規則,并且可相應得到模型得分或标簽,模型得分如流失機率值、總和得分、相似度、預測值等,标簽如高中低價值使用者、流失與非流失、信用優良中差等;
綜合起來,資料分析(狹義)與資料挖掘的本質都是一樣的,都是從資料裡面發現關于業務的知識(有價值的資訊),進而幫助業務營運、改進産品以及幫助企業做更好的決策。是以資料分析(狹義)與資料挖掘構成廣義的資料分析。
http://www.cda.cn/view/18981.html