一、概述
1.定義
對多種不同類型的資料進行收集(大資料)和分析(資料科學、分析、可視化),以此來為在分析的初始階段未知的問題找到答案
2.業務驅動
1.期望抓住從多種流程生成的資料集中發現的商機,是提升一個組織大資料和資料科學能力的最大業務驅動力
2.可以通過對更多、更大的資料集進行探索來激發創新,這些資料可用來定義預判客戶需求的預測模型,并實作産品和服務的個性化展示
3.資料科學可以提升營運水準
4.機器學習算法可以将複雜耗時的活動自動化,進而提升組織效率、削減成本、降低風險。
3.目标
1.發現資料和業務的聯系
2.支援将資料源疊代內建到企業中
3.發現和分析可能影響到業務的因素
4.利用可視化技術,以恰當的、可靠的且合乎道德規範的方式來釋出資料
4.原則
1.大資料管理需要比關系資料管理更多的知識與規則
2.組織應仔細管理與大資料源相關的中繼資料,以便對資料檔案及其來源和價值進行準确的清單管理
二、基本概念
1.資料科學
1.将資料挖掘、統計分析和機器學習與資料內建整合,結合資料模組化能力去建構預測模型、探索資料内容模式。
2.資料科學依賴于:
1)豐富的資料源;
2)資訊組織和分析;
3)資訊傳遞;
4)展示發現和資料洞察
2.資料科學的過程
1.定義大資料戰略和業務需求
2.選擇資料源
3.獲得和接收資料源
4.制定資料假設和方法
5.內建和調整進行資料分析
6.使用模型探索資料
7.部署和監控
3.大資料6V
1.資料量大(Volume)
2.資料更新快(Velocity)
3.資料類型多樣/可變(Variety/Variability)
4.資料粘度大(Viscosity):指資料使用或內建的難度比較高
5.資料波動性大(Volatility):指資料更改的頻率,以及由此導緻的資料有效時間短。
6.資料準确性低(Veracity):指資料的可靠程度不高。
4.資料湖
1.一種可以提取、存儲、評估和分析不同類型和結構海量資料的環境,可供多種場景使用
2.資料湖的風險在于可能會變成資料沼澤---雜亂,不幹淨,不一緻。為了建立資料湖的内容清單,在資料被攝取時對中繼資料進行管理至關重要
3.場景
1.資料科學家可以挖掘和分析資料的環境
2.原始資料的集中存儲區域,隻需很少量的轉換(如果需要的話)
3.資料倉庫明細曆史資料的備用存儲區域
4.資訊記錄的線上歸檔
5.可以通過自動化的模型識别來提取流資料的環境
5.基于服務的架構
1.批處理層(Batch Layer):資料湖作為批處理層提供服務,包括近期和曆史的資料
2.加速層(Speed Layer):隻包括實時資料
3.服務層(Serving Layer):提供連接配接批處理和加速層資料的接口
6.機器學習
1.機器學習探索了學習算法的建構和研究,可以視為無監督學習和監督學習方法的結合
2.無監督學習(Unsupervised learning)通常被稱為資料挖掘,基于找到的那些隐藏的規律。
3.監督學習(Supervised learning)基于複雜的數學理論,特别是統計學、組合學和運籌學;基于通用規則,比如識别出垃圾郵件。
4.強化學習(Reinforcement learning):基于目标的實作,如國際象棋。
7.資料和文本挖掘
1.Data mining 是一種特殊的分析方法,使用各種算法揭示資料中的規律。
2.使用技術
1.剖析(Profiling)
2.資料縮減(Data reducation)
3.關聯(Association)
4.聚類(Clustering)
5.自組織映射(Self-organizing maps)