原文《企業數字化轉型大資料湖項目建設和營運綜合解決方案》WORD格式,共145頁,詳細的介紹了企業資料湖建設目标、建設路線、需求分析、資料湖解決方案、報表平台整體方案、資料倉庫整體方案、資料治理整體方案等。本文僅對主要内容進行介紹。
項目目标
平台層通過對各業務闆塊各種資料的采集、整理、彙聚,建立一個基于“網際網路+”、雲計算技術和人工智能技術的資料湖,實作各業務闆塊的生産監視、智能裝置狀态監測、智能故障診斷、智能運作保障、生産資料分析等功能,打造涵蓋智慧型生産、經營、發展、黨建等全領域的綜合平台。
業務層公司資料湖融合實時資料庫、關系資料庫,實作資料資産管理,提供大資料應用和資料分析計算模型。其中,實時資料是主要的資料形式,實時資料庫叢集承擔高通量資料接入的任務同時,為總部實時業務應用系統提供高實時性的資料查詢、計算、組态資料源服務,同時完成資料的标準化、格式化、清洗和整理,将整齊的資料通過Kafka或其他擴充卡等方式輸出到Hadoop資料湖,并負責提供從Hadoop平台到實時庫等其他所需資料應用的輸入輸出元件。資料集中、挖掘,對實作與下屬機關互聯互通、智能處理、智能協同的目标,使用标準化、自動化、數字化、資訊化、智能化等手段,打造涵蓋智慧型生産、經營、發展、黨建等全領域的綜合平台,形成具有“自分析、自診斷、自管理、自趨優、自恢複、自學習、自提升”為特征的智慧企業生态系統。
展示層随着資料湖資料存儲、分析、挖掘的深入應用,将極大的激發各部門、各層級對于業務資料的分析和探索,在此之上的資料報表展示需求也将呈現複雜性、綜合性、多終端性、個性化等特點。本平台主要目标是建立一個快速的可視化報表平台,無縫化對接資料湖,提供豐富的報表展示功能,面對各層次人員提供對應的資料報表及分析服務。
基于此平台,我們不僅可以在報表開發過程中,加快開發速度,提高資料應用的及時性,還可以在業務需求變更、調整後,大大的降低維護難度,實作可視化做到随需應變。最終在深入完善複雜報表、列印導出、圖形化分析、移動決策、大屏監控、自助分析等多個可視化分析領域的支撐。
項目建設路線
第一期:建設企業資料湖,梳理企業應用系統内部的業務資料類型,資料量;将結構化、非結構化資料打标簽導入資料湖中心湖中,建構視訊池、文本池和應用池分類。對某些應用場景建構BI報表分析。
第二期:建立主資料管理和數倉,ETL規範和流程,資料安全管理,資料可視化管理,資料監控的管理。梳理資料湖使用人員的角色和權限,對資料湖進行基于業務需求場景的多租戶管理。根據業務的微服務化,逐漸建構企業大資料微服務平台,細粒度的平台資源管理。
第三期:資料的深化應用,一體化管控資料标準和資料治理,深化主資料消費和應用。逐漸将應用的資料來源遷移至資料湖中,形成資料應用平台、資料挖掘和BI報表平台,人工智能和機器學習平台。
2 需求分析
2.1功能需求
資料湖的應用、管控、展示為一體,提供标準的服務和資料接口和報表展現方式。資料湖資料采用高效,可靠的存儲架構。企業業務資料制訂遷移方案,将ERP系統、資料采集系統、OA系統、視訊監控系統、雲商系統中存儲的核心資料,整體遷移至資料湖,非彈性資源實行本地化部署,對于彈性計算功能,需與算法資料湖進行協同計算。
以實作核心資料可控,消除安全問題和潛在未知風險。支援可視化模組化,支援滑鼠拖拽方式進行人工智能算法模組化。包括資料預處理、特征工程、算法模型、模型評估和部署等功能支援快銷業務領域的預測預警等多種類型的算法應用,包括邏輯回歸、K近鄰、随機森林、樸素貝葉斯、K均值聚類、線性回歸、GBDT二分類、GBDT回歸等算法模型,也支援深度學習等人工智能訓練模型。展示層通過統一的商業BI報表元件,多元度,動态的展示各業務系統的運作狀況,資源使用情況等。并支撐周期性或臨時性生成各業務狀況,決策資料展示,故障分析挖掘等業務場景。
企業資料湖架構圖
需求總結
綜上述,通過此技術架構,可以在大資料基礎資料湖建設方面實作以下功能:
1、統一數倉:建設成熟穩定、性能先進、靈活架構、便捷易用的大資料存儲與計算資料湖,實作企業内部統一彙聚、統一标準的資料倉庫。
2、統一管理:建設資料權限、中繼資料管理、資料生命周期管控能力。
3、全量數量:建設資料全量存儲、全量計算的大資料基礎資料湖,實作快速對接系統資料,提供批量資料采集與處理能力。
4、資料彙集:建設多源異構資料整合接入能力。
5、資料計算:建設海量資料混合計算處理能力(批量處理和實時流處理),以及豐富多樣的資料挖掘算法工具。
6、資料展現:多種次元、多種展現方式、多種接入方式的靈活的,可定制化的,可拖拽的報表平台。
7、資料湖擴充:建設具有良好相容性與擴充性的基礎資料湖,以較好地支撐後續大資料應用系統的建設。
8、圖檔及視訊流資料儲存至資料湖中,并支援快速檢索。
基于CDH的資料湖軟體部署
本次x x項目底層資料湖是由公司所發行的Hadoop企業版,簡稱CDH。該版本作為業界最領先的企業級資料中心基礎軟體, Enterprise 除了包含業界最流行的基于開源Hadoop及其生态元件建構的CDH核心,還包含了很多為支撐企業級業務的進階管理特性。借助于 Enterprise的整體解決方案,企業可以專注于自己的業務能力。
基于Hadoop的系統資料湖中,底層為統一分布式存儲HDFS,其上包含了分布式記憶體分析引擎SPARK,分布式NoSQL資料庫HBase,以及支援多組戶的分布式計算叢集。在Hadoop及相當架構系統資料湖之上,根據實際外部合作以及内部應用提供多租戶服務以及資源與資料通路權限控制。如下圖所示:
Hadoop資料湖架構圖
資料湖由分布式資源管理架構實時排程資源、管理計算分析叢集,為各個租戶以及各個應用提供資源排程管理以及高效的分析挖掘能力,同時結合LDAP與Kerberos提供完備的權限管理控制。