天天看點

企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)

作者:優享智慧方案
原文《企業ETL大資料處理平台及企業大資料中心總體解決方案》WORD格式,共216頁,約10萬字,主要按照對資料中心的了解,完整的資料中心應該具備IT基礎設施(主機、存儲、網絡)、企業級ETL平台、資料存儲中心、資料共享服務、應用層、統一門戶、資料管控平台。适用于招投标、技術檔案、投标檔案等。

來源網絡,旨在交流學習,如有侵權,聯系速删,更多參考公衆号:優享智庫

總體建設思路

企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)

圖、資料中心建構思路圖

按照對資料中心的了解,完整的資料中心應該具備IT基礎設施(主機、存儲、網絡)、企業級ETL平台、資料存儲中心、資料共享服務、應用層、統一門戶、資料管控平台。

功能架構

企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)

圖、功能架構

系統功能架構分為企業級ETL平台、存儲與計算中心、服務層、應用層、統一門戶、統一平台管控。

企業級ETL平台:

負責企業資料中心資料采集、加工、彙總、分發的過程,完成企業級資料标準化、集中化,實作資料脈絡化、關系化,實作統一的資料處理加工,包括:非實時資料處理和實時資料處理,提供資料抽取、資料轉換、資料加載、資料彙總、資料分發、資料挖掘等能力。

存儲與計算中心:

建立統一的資料中心資料模型,以及統一的資料存儲與計算,具體提供關系資料庫、分布式非關系資料庫、分布式檔案、分布式計算,實作統一的資料存儲與計算。

資料共享服務:

通過資料服務标準化開放通路,幫助企業IT建設中,應用和資料分離,引入更多的應用開發商,促進應用的百花齊放和應用的專業性;基于标準化接口,實作對标簽、客戶視圖、名額等資料查詢API封裝,實作與周邊系統實時互動,展現資料價值,減少資料備援,保證資料安全,保證資料的一緻性。

應用層:

應用層的應用使用服務層提供的各種資料服務。本期應用層包括:經分應用、流量營運、ESOP應用、VGOP應用、名額庫、流量營運戰略地圖、掌上分析、自助業務分析、區域洞察、管道營運、自助分析、客戶标簽庫、實時營銷、LTE網際網路管控政策。

統一門戶:

提供統一域名配置設定、負載均衡、鑒權管理、統一管控平台接入、應用注冊、應用釋出、應用通路資料資訊等功能,同時提供資料中心被應用通路的頻次,被應用通路的資料範圍,提供資料資産的評估,為應用上下線和資料開放提供依據。

統一平台管控:

面向開發人員、運維人員實作資料、應用、資源的統一管控,包括:資料資産管控、開發管理、監控管理、排程管理、系統管理、安全管理。

技術架構

企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)

圖、技術架構

系統技術架構分為資料采集、計算存儲服務、資料共享服務、平台管控。采用Hadoop雲技術,可以滿足計算能力線性擴充、多租戶能力、資料彙總能力;批處理場景采取Hadoop的Map/Reduce、Hive或者Spark來完成;流式資料處理,采用Esper計算引擎實作。

資料采集:

采用Flume計算架構,實作檔案和消息采集與解析;采用流式爬蟲、中文分詞、圖檔識别技術,實作網際網路網頁資訊實時采集;采用FTP檔案方式實作對資料檔案的采集;采用Socket消息方式實作對消息資料的采集;采用sqoop方式實作将資料庫資料裝載到HDFS檔案系統。

計算存儲服務:

采用Hadoop中HDFS檔案系統提供統一的大資料資料存儲,滿足全量資料留存;基于Yarn提供跨平台的資源管理,滿足資源的統一排程與管理;采用Hadoop實作非實時ETL,實作海量資料的批處理,主要處理ODS層->DWD層->DW層->ST層的資料處理;視業務資料情況部分DW層->ST層的資料處理采用Spark計算架構實作;采用Esper和rabbitmq支撐流資料處理與複雜事件處理;利舊DB2提供ST層資料的存儲與計算,支援高并發的名額級資料共享。

資料共享:

資料開放共享采用基于HTTP協定REST風格的OpenAPI完成同步處理與基于消息隊列(MQ)完成異步處理,實作類SOA面向服務的架構體系。支援OAuth提供一個安全的、開放而又簡易的授權協定。資料共享服務部署在叢集環境中以應對高并發的通路請求,并實作叢集的負載均衡。

統一平台管控:

采用Java EE技術,通過MVC模式(Model View Controller,是模型-視圖-控制器)把業務邏輯、資料、界面顯示分離的方法組織代碼,将業務邏輯聚集到一個部件裡面,在改進和個性化定制界面及使用者互動的同時,不需要重新編寫業務邏輯。

資料流圖

企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)

Mc信令(實時)資料通過Socket消息适配子產品接入至Esper計算引擎進行實時處理,向應用提供事件API服務,支撐實時營銷應用;後期如Gn信令、LTE信令也提供實時資料,可滿足基于Gn信令、LTE信令的實時處理。

除Mc信令(實時)資料外,Gn信令、Mc信令、自有業務訂購與使用行為等資料通過非實時ETL方式裝載到Hadoop的HDFS檔案系統,實作全量資料留存;由Hive承擔主庫的職能,實作海量資料的批處理,承載ODS->DWD->DW->ST各層資料處理,其中DW層部分資料提供給Spark,由Spark完成資料處理工作。

企業ETL資料處理平台

功能架構

企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)

根據資料中心的建設需求,企業級的ETL平台實作統一的資料采集、轉換、加載、處理以及統一排程、管控等功能。這裡的ETL指的是廣義的ETL,具備以下的特點:

  • 統一資料擷取接入,支援B域資料、M域資料、O域資料或其他外部資料統一接入資料中心平台。
  • 支援結構化和非結構化資料采集、加工;對非結構化資料要實作從非結構化到結構化的處理過程。
  • 支援資料采集、轉換、加載等關鍵 ,.資料處理過程,實作企業資料的标準。
  • 從周期上,支援批量的資料采集,實時的資料采集
  • 滿足資料中心資料加工,處理以及對外提供資料分發、同步
  • 支援全過程的資料稽核。包括事前、事中、事後的稽核方式。以及靈活的稽核規則管理,算法管理
  • 全過程的可視化開發配置管理。通過可視化的開發配置,測試和部署上線。
  • 全過程中繼資料管理。重點要實作事前的中繼資料管理。管理的内容包括:支援資料模型、資料流程、轉換規則、資料關系和轉換映射規則。
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)
企業ETL大資料處理平台及企業大資料中心總體解決方案(WORD)

繼續閱讀