DAMA-DMBOK 2 第十四章總結--大資料與資料科學

2021-11-01 01:57:20

一、概述

1.定義

對多種不同類型的資料進行收集（大資料）和分析（資料科學、分析、可視化），以此來為在分析的初始階段未知的問題找到答案

2.業務驅動

1.期望抓住從多種流程生成的資料集中發現的商機，是提升一個組織大資料和資料科學能力的最大業務驅動力

2.可以通過對更多、更大的資料集進行探索來激發創新，這些資料可用來定義預判客戶需求的預測模型，并實作産品和服務的個性化展示

3.資料科學可以提升營運水準

4.機器學習算法可以将複雜耗時的活動自動化，進而提升組織效率、削減成本、降低風險。

3.目标

1.發現資料和業務的聯系

2.支援将資料源疊代內建到企業中

3.發現和分析可能影響到業務的因素

4.利用可視化技術，以恰當的、可靠的且合乎道德規範的方式來釋出資料

4.原則

1.大資料管理需要比關系資料管理更多的知識與規則

2.組織應仔細管理與大資料源相關的中繼資料，以便對資料檔案及其來源和價值進行準确的清單管理

二、基本概念

1.資料科學

1.将資料挖掘、統計分析和機器學習與資料內建整合，結合資料模組化能力去建構預測模型、探索資料内容模式。

2.資料科學依賴于：

1）豐富的資料源；

2）資訊組織和分析；

3）資訊傳遞；

4）展示發現和資料洞察

2.資料科學的過程

1.定義大資料戰略和業務需求

2.選擇資料源

3.獲得和接收資料源

4.制定資料假設和方法

5.內建和調整進行資料分析

6.使用模型探索資料

7.部署和監控

3.大資料6V

1.資料量大（Volume）

2.資料更新快（Velocity）

3.資料類型多樣/可變(Variety/Variability）

4.資料粘度大（Viscosity）：指資料使用或內建的難度比較高

5.資料波動性大（Volatility）：指資料更改的頻率，以及由此導緻的資料有效時間短。

6.資料準确性低(Veracity）：指資料的可靠程度不高。

4.資料湖

1.一種可以提取、存儲、評估和分析不同類型和結構海量資料的環境，可供多種場景使用

2.資料湖的風險在于可能會變成資料沼澤---雜亂，不幹淨，不一緻。為了建立資料湖的内容清單，在資料被攝取時對中繼資料進行管理至關重要

3.場景

1.資料科學家可以挖掘和分析資料的環境

2.原始資料的集中存儲區域，隻需很少量的轉換（如果需要的話）

3.資料倉庫明細曆史資料的備用存儲區域

4.資訊記錄的線上歸檔

5.可以通過自動化的模型識别來提取流資料的環境

5.基于服務的架構

1.批處理層（Batch Layer）：資料湖作為批處理層提供服務，包括近期和曆史的資料

2.加速層（Speed Layer）：隻包括實時資料

3.服務層（Serving Layer）：提供連接配接批處理和加速層資料的接口

6.機器學習

1.機器學習探索了學習算法的建構和研究，可以視為無監督學習和監督學習方法的結合

2.無監督學習（Unsupervised learning）通常被稱為資料挖掘，基于找到的那些隐藏的規律。

3.監督學習（Supervised learning）基于複雜的數學理論，特别是統計學、組合學和運籌學；基于通用規則，比如識别出垃圾郵件。

4.強化學習（Reinforcement learning）：基于目标的實作，如國際象棋。

7.資料和文本挖掘

1.Data mining 是一種特殊的分析方法，使用各種算法揭示資料中的規律。

2.使用技術

1.剖析（Profiling）

2.資料縮減（Data reducation）

3.關聯（Association）

4.聚類（Clustering）

5.自組織映射（Self-organizing maps）

8.預測分析

Predictive Analytics，預測分析是有監督學習的子領域，使用者嘗試對資料元素進行模組化，并通過評估機率估算來預測未來結果。

9.規範分析

Prescriptive Analytics，比預測分析更進一步，對将會影響結果的運作進行定義，而不僅僅是根據已發生的運作預測結果。

10.非結構化資料分析

Unstructured Data Analytics，結合文本挖掘、關聯分析、聚類分析和其他無監督學習技術來處理大型資料集。

11.營運分析

Operational Analytics，也稱營運BI或流式分析，包括使用者細分、情緒分析、地理編碼以及應用于資料集的其它技術，用于營銷活動分析、銷售突破、産品推廣、資産優化和風險管理等

12.資料可視化

Visualization，通過圖檔或圖形來解釋概念、想法和事實的過程。

13.資料混搭

Data Mashups，将資料和服務結合在一起，以可視化的方式展示見解或分析結果。

三、活動

1）組織試圖解決什麼問題，需要分析什麼

2）要使用或擷取的資料源是什麼

3）提供資料的及時性和範圍

4）對其他資料結構的影響以及與其他資料結構的相關性

5）對現有模組化資料的影響

1.基礎資料

2.粒度

3.一緻性

4.可靠性

5.檢查/分析資料源

5.內建和調整資料進行分析

1）填充預測模型

2）訓練模型

3）評估模型

4）建立資料可視化

1）揭示洞察和發現

2）使用附加資料源疊代

四、工具

1.MPP無共享技術和架構

2.基于分布式檔案的資料庫

3.資料庫内算法

4.大資料雲解決方案

5.統計計算和圖形語言

6.資料可視化工具集

五、方法

1.解析模組化

2.大資料模組化

六、實施指南

1.戰略一緻性

2.就緒/風險評估

1.業務相關性

2.業務準備情況

3.經濟可行性

4.原型

5.可能最具挑戰性的決策将圍繞資料采購、平台開發和資源配置進行

6.數字資料存儲有許多來源，并非所有來源都需要内部擁有和營運。可以買或租賃

7.市場上有多種工具和技術，滿足一般需求将是一個挑戰

8.及時保護具有專業技能的員工，并在實施過程中留住頂尖人才

9.培養内部人才的時間可能會超過傳遞視窗的時間

3.組織與文化變遷

七、大資料和資料科學治理

1.可視化管道管理

2.資料科學和可視化标準

3.資料安全

4.中繼資料

5.資料品質

6.度量名額

1.技術使用名額

2.加載和掃描名額

3.學習和故事場景

版權聲明：未經許可，不得抄襲。轉載請此處留言或公衆号背景溝通。更多關于CDMP認證和資料治理的交流請關注公衆号（Data is King），公衆号回複‘dmbok思維導圖’ 可擷取思維導圖版知識點總結。

模組化 DAMA 資料治理 CDMP DMBOK

上一篇: Spark和Hadoop的差別

下一篇: spark環境，hadoop叢集搭建

繼續閱讀