天天看点

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

大数据云平台

  • 平台部署
    • 1.Hadoop平台
    • 2.HDFS
    • 3.Hbase数据库
    • 4.Hive
    • 5.MapReduce
  • Hbase表结构设计
    • 1.Hbase简介
    • 2.Hbase设计
  • 存储与查询接口设计
    • 1.存储接口设计
    • 2.查询接口设计
  • 后台数据仓库设计
    • 数据仓库设计

涉及范围

  1. Linux系统环境搭建
  2. Hadoop + Spark + Hbase 平台部署
  3. Hbase表结构设计
  4. 数据存储及查询接口的设计与实现
  5. 基于Hbase的数据仓库设计

总体设计

通过整合资源,充分利用现有硬件基础设施,结合云计算大数据的最新趋势,对本平台设计,力争满足应用需 要。采用云计算技术,结合创新建设模式,搭建标准统一、功能完善、系统稳定、安全可靠、纵横互通、集中统一、运行速度显著提升的云计算平台。

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

---------------------------------------- 云平台总体拓扑结构图

大数据中心包含数据接收与处理的中间件、查询接口、原始数据Hbase库及后台数据仓库。

数据接收与处理中间件主要完成数据的验证与导入,并提供标准化的数据导入接口。查询接口层提供标准的输入输出查询格式。原始数据库与后台数据仓库为查询与数据分析提供支持。

平台部署

1.Hadoop平台

Hadoop提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源, Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。

2.HDFS

HDFS分布式文件系统:

(1)有较强的容错性

(2)可在x86平台上运行,减少总体成本

(3)可扩展,能构建大规模的应用

3.Hbase数据库

Hbase是非结构化NoSQl分布式数据库,具有如下特点:

(1)基于分布式文件系统HDFS,保证数据安全;

(2)列式存储,节省存储空间;

(3)提供大数据量的高速读写操作。

4.Hive

Hive是分布式关系型数据库:

(1)数据可保存在HDFS,可提供海量的数据存储

(2)类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理

(3)通过MapReduce实现大规划并行计算

5.MapReduce

MapReduc大规划并行计算引擎,可将任务分布并行运行在一个集群服务器中。

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

--------------------------------------Hadoop平台关系图

Hbase表结构设计

1.Hbase简介

HBase是一个面向列的数据库,在表中它由行排序。表模式定义只能列族,也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续地存储在磁盘上。表中的每个单元格值都具有时间戳。

总之,在一个HBase:表是行的集合;行是列族的集合;列族是列的集合;

列是键值对的集合。

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

------------------------------ ---------hbase表结构示例

2.Hbase设计

在本平台中,对水务数据共建六个Hbase表,分别对应到具体业务。具体表的RowKey由站点ID、设备ID、参数ID以及时间戳拼接生成,数据信息放在第一列族Info中。

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

图为WQ表结构的示意图,其余表的结构与WQ采用相同结构,只在对应的列属性做调整。

存储与查询接口设计

本平台的所有存储与查询的接口均设计为WebService服务模式,由标准的Json格式,通过Form表单提交Post请求。

1.存储接口设计

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

---------------------------存储接口设计

2.查询接口设计

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

---------------------------------查询接口设计

后台数据仓库设计

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

----------------------------数据仓库结构图

数据仓库设计

Hadoop + Spark + Hbase (一)平台部署Hbase表结构设计存储与查询接口设计后台数据仓库设计

本平台数据仓库基于Hbase设计,将原始Hbase数据库中的数据进行处理与分析,实现查询需求。具有如下特点:

(1)效率足够高。本数据仓库的数据分析为日、周、月、季、年,可以满足基本的业务需求。

(2)数据质量。数据仓库所提供的各种信息,已经完成了数据清洗,装载,查询的各种需求。

(3)具有扩展性。之所以数据仓库系统架构设计的比较复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用去重建数据仓库系统,就能很稳定运行。

继续阅读