天天看點

DAMA-DMBOK 2 第十四章總結--大資料與資料科學

一、概述

1.定義

對多種不同類型的資料進行收集(大資料)和分析(資料科學、分析、可視化),以此來為在分析的初始階段未知的問題找到答案

2.業務驅動

1.期望抓住從多種流程生成的資料集中發現的商機,是提升一個組織大資料和資料科學能力的最大業務驅動力
2.可以通過對更多、更大的資料集進行探索來激發創新,這些資料可用來定義預判客戶需求的預測模型,并實作産品和服務的個性化展示
3.資料科學可以提升營運水準
4.機器學習算法可以将複雜耗時的活動自動化,進而提升組織效率、削減成本、降低風險。

3.目标

1.發現資料和業務的聯系
2.支援将資料源疊代內建到企業中
3.發現和分析可能影響到業務的因素
4.利用可視化技術,以恰當的、可靠的且合乎道德規範的方式來釋出資料

4.原則

1.大資料管理需要比關系資料管理更多的知識與規則
2.組織應仔細管理與大資料源相關的中繼資料,以便對資料檔案及其來源和價值進行準确的清單管理

二、基本概念

1.資料科學

1.将資料挖掘、統計分析和機器學習與資料內建整合,結合資料模組化能力去建構預測模型、探索資料内容模式。
2.資料科學依賴于:

1)豐富的資料源;

2)資訊組織和分析;

3)資訊傳遞;

4)展示發現和資料洞察

2.資料科學的過程

1.定義大資料戰略和業務需求
2.選擇資料源
3.獲得和接收資料源
4.制定資料假設和方法
5.內建和調整進行資料分析
6.使用模型探索資料
7.部署和監控

3.大資料6V

1.資料量大(Volume)
2.資料更新快(Velocity)
3.資料類型多樣/可變(Variety/Variability)
4.資料粘度大(Viscosity):指資料使用或內建的難度比較高
5.資料波動性大(Volatility):指資料更改的頻率,以及由此導緻的資料有效時間短。
6.資料準确性低(Veracity):指資料的可靠程度不高。

4.資料湖

1.一種可以提取、存儲、評估和分析不同類型和結構海量資料的環境,可供多種場景使用
2.資料湖的風險在于可能會變成資料沼澤---雜亂,不幹淨,不一緻。為了建立資料湖的内容清單,在資料被攝取時對中繼資料進行管理至關重要
3.場景

1.資料科學家可以挖掘和分析資料的環境

2.原始資料的集中存儲區域,隻需很少量的轉換(如果需要的話)

3.資料倉庫明細曆史資料的備用存儲區域

4.資訊記錄的線上歸檔

5.可以通過自動化的模型識别來提取流資料的環境

5.基于服務的架構

1.批處理層(Batch Layer):資料湖作為批處理層提供服務,包括近期和曆史的資料
2.加速層(Speed Layer):隻包括實時資料
3.服務層(Serving Layer):提供連接配接批處理和加速層資料的接口

6.機器學習

1.機器學習探索了學習算法的建構和研究,可以視為無監督學習和監督學習方法的結合
2.無監督學習(Unsupervised learning)通常被稱為資料挖掘,基于找到的那些隐藏的規律。
3.監督學習(Supervised learning)基于複雜的數學理論,特别是統計學、組合學和運籌學;基于通用規則,比如識别出垃圾郵件。
4.強化學習(Reinforcement learning):基于目标的實作,如國際象棋。

7.資料和文本挖掘

1.Data mining 是一種特殊的分析方法,使用各種算法揭示資料中的規律。
2.使用技術

1.剖析(Profiling)

2.資料縮減(Data reducation)

3.關聯(Association)

4.聚類(Clustering)

5.自組織映射(Self-organizing maps)

8.預測分析

Predictive Analytics,預測分析是有監督學習的子領域,使用者嘗試對資料元素進行模組化,并通過評估機率估算來預測未來結果。

9.規範分析

Prescriptive Analytics,比預測分析更進一步,對将會影響結果的運作進行定義,而不僅僅是根據已發生的運作預測結果。

10.非結構化資料分析

Unstructured Data Analytics,結合文本挖掘、關聯分析、聚類分析和其他無監督學習技術來處理大型資料集。

11.營運分析

Operational Analytics,也稱營運BI或流式分析,包括使用者細分、情緒分析、地理編碼以及應用于資料集的其它技術,用于營銷活動分析、銷售突破、産品推廣、資産優化和風險管理等

12.資料可視化

Visualization,通過圖檔或圖形來解釋概念、想法和事實的過程。

13.資料混搭

Data Mashups,将資料和服務結合在一起,以可視化的方式展示見解或分析結果。

三、活動

1)組織試圖解決什麼問題,需要分析什麼
2)要使用或擷取的資料源是什麼
3)提供資料的及時性和範圍
4)對其他資料結構的影響以及與其他資料結構的相關性
5)對現有模組化資料的影響

1.基礎資料
2.粒度
3.一緻性
4.可靠性
5.檢查/分析資料源

5.內建和調整資料進行分析

1)填充預測模型
2)訓練模型
3)評估模型
4)建立資料可視化

1)揭示洞察和發現
2)使用附加資料源疊代

四、工具

1.MPP無共享技術和架構

2.基于分布式檔案的資料庫

3.資料庫内算法

4.大資料雲解決方案

5.統計計算和圖形語言

6.資料可視化工具集

五、方法

1.解析模組化

2.大資料模組化

六、實施指南

1.戰略一緻性

2.就緒/風險評估

1.業務相關性
2.業務準備情況
3.經濟可行性
4.原型
5.可能最具挑戰性的決策将圍繞資料采購、平台開發和資源配置進行
6.數字資料存儲有許多來源,并非所有來源都需要内部擁有和營運。可以買或租賃
7.市場上有多種工具和技術,滿足一般需求将是一個挑戰
8.及時保護具有專業技能的員工,并在實施過程中留住頂尖人才
9.培養内部人才的時間可能會超過傳遞視窗的時間

3.組織與文化變遷

七、大資料和資料科學治理

1.可視化管道管理

2.資料科學和可視化标準

3.資料安全

4.中繼資料

5.資料品質

6.度量名額

1.技術使用名額
2.加載和掃描名額
3.學習和故事場景

版權聲明:未經許可,不得抄襲。轉載請此處留言或公衆号背景溝通。更多關于CDMP認證和資料治理的交流請關注公衆号(Data is King),公衆号回複‘dmbok思維導圖’ 可擷取思維導圖版知識點總結。

繼續閱讀