原文《大数据平台技术架构规划方案》PPT格式,主要从大数据处理技术、大数据目标架构、建设思路、大数据平台架构、建设重点等进行建设。适用于售前项目汇报、领导汇报。
素材整理或来源网络公开渠道,如有侵权,联系速删,更多参考公众号:优享智库
一、大数据处理技术
大数据对传统数据处理技术体系提出挑战
大数据具备数据量大、数据类型多、数据处理速度要求高和价值密度低的特点,传统分析系统架构(RDBMS +小型机+ 高端阵列模式)下,传统数据库无法支撑海量数据(如100TB以上,性能下降)、非结构化数据,现有IOE的架构无法线性扩展且成本高昂。
二、大数据目标架构
在当前数据种类繁多、数据处理复杂的情形下,不适合采用一种的单一的技术解决全部问题,大数据平台据需要采用Hadoop资源池、MPP数据库、流处理资源池混搭大数据技术架构。
数据平台基于MPP、Hadoop、流处理等云计算、大数据技术
•DW数据库用于分析处理统计分析类OLAP应用
•MPP数据库用于结构化数据的关联分析。
•Hadoop平台软件部署于Hadoop大数据处理集群,实现海量非结构化数据存储与处理以及结构化数据的垂直汇总。
•流数据与复杂事件处理(CEP)规则引擎平台用于对数据流进行实时处理,实现对高速数据流的接入与实时处理,实时探测关键事件
三、建设思路
由易到难,稳步推进:初期以数据整合为主,逐步面向内外提供数据服务。
管控架构,同步推进:同步推动数据标准化和组织机构变革,为大数据共享平台商用奠定基础。
自主掌控,能力内化:逐步培养自研团队,构建研发运营一体化能力。
四、大数据平台架构
企业级省大数据平台的技术架构包括数据采集、数据存储与计算层、开发框架和应用中心四层,同时包括统一运维管理为各类使用人员提供服务。在大数据技术架构中数据的存储和计算是紧密相连的。
五、建设重点
建设重点1——与其他分析型平台关系
大数据共享平台:
全网XDR数据采集、标准化、全量存储(1个月)
全网网管数据采集、标准化、全量存储
大数据共享平台实现负责xDR数据和网管数据的统一集中采集和预处理;提供上层应用对xDR细粒度数据的查询响应。
按应用需求进行多维度小粒度汇总、数据整合、存储
提供明细数据查询、轻度汇总数据查询。
性能管理系统:
从大数据共享平台获取应用所需全量小时汇总数据。
数据缓存层:负责对来自于大数据共享平台的数据进行深入处理和缓存;为应用层提供各种汇总数据存储、处理与共享,以及综合分析与深度挖掘。
应用层:承载上层各类应用软件和第三方应用,实现上层应用。
建设重点2——制定数据治理规则
• 按照规则从数据源直接采集,避免重复采集数据。
• 对于现有系统已采集的数据,发掘沉默数据的剩余价值。
• 对于现有系统未采集的数据,增加采集点并发掘数据价值。
• 采集后的数据存储,遵照各域属地化存储原则,各域的数据仓库是公共仓库,全公司共享使用。
• 按照规则进行数据统一清洗,清洗后根据不同专业应用需求,进行数据分发和权限控制。
• 对于数据缺失不能满足应用需求的,要么修改数据清洗规则,要么重新采集数据。
• 从各域共享数据和标签组合中,探索大数据对内对外的应用场景和未知价值。
建设重点3——HADOOP服务器测算模型
模型搭建:根据HDFS存储容量能力计算,主要分为两个方面:
一是某一体量的数据在采用不同的数据处理技术时,它所需要的物理存储容量、即磁盘裸容量的理论计算;
二是针对配置一定情况下,X86服务器在承载不同的数据处理技术实体时,该X86服务器能够提供的有效存储容量。
最终得出某一体量的数据在采用不同的数据处理技术时所需要配置的X86服务器数量=物理存储容量÷X86服务器能够提供的有效存储容量。
建设重点4——HADOOP集群对局址的选择1/2