大数据云平台
- 平台部署
-
- 1.Hadoop平台
- 2.HDFS
- 3.Hbase数据库
- 4.Hive
- 5.MapReduce
- Hbase表结构设计
-
- 1.Hbase简介
- 2.Hbase设计
- 存储与查询接口设计
-
- 1.存储接口设计
- 2.查询接口设计
- 后台数据仓库设计
-
- 数据仓库设计
涉及范围
- Linux系统环境搭建
- Hadoop + Spark + Hbase 平台部署
- Hbase表结构设计
- 数据存储及查询接口的设计与实现
- 基于Hbase的数据仓库设计
总体设计
通过整合资源,充分利用现有硬件基础设施,结合云计算大数据的最新趋势,对本平台设计,力争满足应用需 要。采用云计算技术,结合创新建设模式,搭建标准统一、功能完善、系统稳定、安全可靠、纵横互通、集中统一、运行速度显著提升的云计算平台。

---------------------------------------- 云平台总体拓扑结构图
大数据中心包含数据接收与处理的中间件、查询接口、原始数据Hbase库及后台数据仓库。
数据接收与处理中间件主要完成数据的验证与导入,并提供标准化的数据导入接口。查询接口层提供标准的输入输出查询格式。原始数据库与后台数据仓库为查询与数据分析提供支持。
平台部署
1.Hadoop平台
Hadoop提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。
2.HDFS
HDFS分布式文件系统:
(1)有较强的容错性
(2)可在x86平台上运行,减少总体成本
(3)可扩展,能构建大规模的应用
3.Hbase数据库
Hbase是非结构化NoSQl分布式数据库,具有如下特点:
(1)基于分布式文件系统HDFS,保证数据安全;
(2)列式存储,节省存储空间;
(3)提供大数据量的高速读写操作。
4.Hive
Hive是分布式关系型数据库:
(1)数据可保存在HDFS,可提供海量的数据存储
(2)类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理
(3)通过MapReduce实现大规划并行计算
5.MapReduce
MapReduc大规划并行计算引擎,可将任务分布并行运行在一个集群服务器中。
--------------------------------------Hadoop平台关系图
Hbase表结构设计
1.Hbase简介
HBase是一个面向列的数据库,在表中它由行排序。表模式定义只能列族,也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续地存储在磁盘上。表中的每个单元格值都具有时间戳。
总之,在一个HBase:表是行的集合;行是列族的集合;列族是列的集合;
列是键值对的集合。
------------------------------ ---------hbase表结构示例
2.Hbase设计
在本平台中,对水务数据共建六个Hbase表,分别对应到具体业务。具体表的RowKey由站点ID、设备ID、参数ID以及时间戳拼接生成,数据信息放在第一列族Info中。
图为WQ表结构的示意图,其余表的结构与WQ采用相同结构,只在对应的列属性做调整。
存储与查询接口设计
本平台的所有存储与查询的接口均设计为WebService服务模式,由标准的Json格式,通过Form表单提交Post请求。
1.存储接口设计
---------------------------存储接口设计
2.查询接口设计
---------------------------------查询接口设计
后台数据仓库设计
----------------------------数据仓库结构图
数据仓库设计
本平台数据仓库基于Hbase设计,将原始Hbase数据库中的数据进行处理与分析,实现查询需求。具有如下特点:
(1)效率足够高。本数据仓库的数据分析为日、周、月、季、年,可以满足基本的业务需求。
(2)数据质量。数据仓库所提供的各种信息,已经完成了数据清洗,装载,查询的各种需求。
(3)具有扩展性。之所以数据仓库系统架构设计的比较复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用去重建数据仓库系统,就能很稳定运行。