馬雲曾說“中國正迎來從IT時代到DT時代的變革”,DT就是大資料時代。資料已成為企業的核心資産和寶貴資源,企業愈加重視和善加利用資料分析與挖掘技術。
1.1什麼是資料分析與挖掘
資料分析和挖掘都是基于搜集來的資料,應用數學、統計、計算機等技術抽出資料中的有用資訊,進而為決策提供依據和指導方向。
舉例:應用漏鬥分析法挖掘出使用者體驗過程中的不足之處,進而進一步改善産品的使用者流程;基于RFM模型實作使用者的價值分析,進而針對不同價值等級的使用者采用各自的營銷方案,實作精準觸達。
1.2資料分析與挖掘的應用領域
有資料的地方就有用武之地:電商平台、遊戲平台、社交平台、金融行業、教育行業、醫療行業、房地産、餐飲等,這些行業都需要借助資料分析和挖掘技術來指導下一步的決策方向。
應用執行個體:
1.2.1電商領域——發現破壞規則的害群之馬
1.2.2交通出行領域——為打車平台進行私人訂制
1.2.3醫療健康領域——找到最佳醫療方案
1.3資料分析與資料挖掘的差別
從廣義角度來說:資料分析涵蓋了資料分析與資料挖掘,是對搜集來的資料運用基礎探索、統計分析、深層挖掘等方法,發現資料中有用的資訊和未知的規律與模式,進而為下一步的業務決策提供理論與實踐依據。
從狹義角度來說,兩略有不同:

1.4資料挖掘的流程
1.5常用資料分析與挖掘工具
工欲善其事 ,必先利其器。“器”兼指兩方面:軟實力:對企業業務邏輯的了解、理論知識的掌握和施展工作的清醒大腦;硬實力:即對資料挖掘工具的掌握;
- R語言:奧克蘭大學統計系的Robert Gentleman 和 Ross Ihaka共同開發,1993年首次面世。資料操作靈活、向量化計算高效、資料可視化效果佳、易用性和可擴充性好,優秀的資料挖掘工具。
- Python:荷蘭人Guido van Rossum于1989年發明,1991年首次公開發行。簡單易學的程式設計類工具。代碼具有簡潔性、易讀性、易維護性的優點,第三方 子產品與R語言一樣豐富,在大資料時代應用日益廣泛。
- Weka:由紐西蘭懷卡托大學計算機系Ian Written博士于1992年底研發,是公開的資料挖掘平台。其圖形化界面适用于對于不擅長程式設計的使用者。
- SAS:美國北卡羅來納州大學開發的統計分析軟體,應用廣泛,包含數十個子產品。
- SPSS:世界上最早的統計分析軟體,斯坦福大學三個研究所學生在1968年研發。