天天看点

结构化数据存储方式——列存储与数据质量的关系

作者:见著科技大数据中心

数据分析系统面临的挑战

众所周知,大数据时代以海量数据而闻名。随着信息化时代的发展,数据的存量更加庞大,因此大数据的到来,给目前传统的分析系统带来了巨大挑战。

数据越来越多,超越了input/output(输入/输出,计算机术语,以下简称I/O)极限。众所周知,I/O 能力一直都是传统数据仓库系统的瓶颈。大数据的到来,更加重了 I/O瓶颈问题。

分析查询性能低下。查询时间以数小时甚至数天计,有的分析算法甚至根本无法运行。传统分析系统都是基于数据概要的统计分析,无法满足深度挖掘分析要求。尚待挖掘的有价值的业务规律,往往隐藏在数据细节中。

传统基于数据概要的分析方法,阻碍了新的业务规律的发现,大大降低了业务数据的分析价值。传统分析系统采用的批处理方式进行加载和汇总,无法满足时效性要求。需要分析的数据量越来越多,要汇总的业务也越来越多,留给数据批量加载和汇总的处理时间窗口越来越短,甚至根本无法完成。

同时,批量加载方式使得数据的时效性得不到保障,企业的市场机会往往无法把握,容易造成经济损失。

结构化数据存储方式——列存储与数据质量的关系

02

见著科技数据处理方案概述

结构化数据存储一般有两种方式:行存储和列存储。

行存储是按记录整行写入,数据读取时,行存储通常将一行数据完全读出,如果只需要其中几列数据的情况,就会存在冗余列,出于缩短处理时间的考量,消除冗余列的过程需要在内存中进行。

而在行式存储中一行的多列是连续的写在一起的,在列式存储中数据按列分开存储,例如可以只读取 A.C.E 这几列的数据而不去读 B.D 列,减少磁盘的访问量。同时列式存储是压缩友好的,使用压缩,可以综合 CPU 和磁盘,发挥最大的效能。

结构化数据存储方式——列存储与数据质量的关系

见著科技采用列式存储数据可以降低数据量。可以跳过不符合条件的数据,只读取需要的数据,降低 IO 数据量

降低磁盘压缩空间。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码进一步节约存储空间。

阶段策略。只读取需要的列,支持向量运算,能够获取更好的扫描性能。

结构化数据存储方式——列存储与数据质量的关系

03

应用场景

· 大数据实时分析 ·

面向大数据的实时分析平台,见著科技大数据平台基于列式存储能力,可完美解决用户大数据量情况下数据实时分析问题,用户可实时捕捉数据运行情况,帮助用户实时决策,运营情况了然于胸。

结构化数据存储方式——列存储与数据质量的关系

见著科技大数据平台部分展示图

· 拖拽分析秒级响应 ·

面向大数据的实时分析平台,满足业务人员面向百亿级明细数据,实现高性能敏捷拖拽分析场景,数据加载后业务人员自助探索体验可达到秒级响应提升用户操作和分析体验。

结构化数据存储方式——列存储与数据质量的关系

见著科技大数据平台部分展示图

· 报表查询秒级响应 ·

面向大数据的实时分析平台,对于大数据量的明细数据、汇总数据,都能达到查询分析秒级响应,帮助各类报表用户解决报表慢的难题。

结构化数据存储方式——列存储与数据质量的关系

见著科技大数据平台表单设计部分展示图

· 可扩展符合SQL的时间序列数据库 ·

现如今大部分数据都是时间序列数据,无论是在查看物联网数据,金融服务数据还是来自IT基础架构的数据,都可能会定期创建数据。

面向大数据的实时分析平台具有一整套内置分析功能,包括时间序列,地理空间,模式匹配等。这些功能可以帮助实现不同类型的数据分析。

结构化数据存储方式——列存储与数据质量的关系

见著科技大数据平台数据源管理部分展示图

04

应用价值

见著科技大数据平台采用的列式存储能够为企业的生产带来巨大的应用价值。

①性价比高,支持大规模扩展

支持全平台部署:x86服务器/私有云/公有云/Hadoop;支持大规模节点扩展,性价比高于传统数据库如Oracle及其他开源技术。

②高处理性能

能够处理TB级大数据量,支撑大规模批量计算/高并发查询/极端复杂的自主分析和查询

③高频数据加载和实时分析

支持秒级数据实时加载和秒级甚至亚秒级的数据查询响应能力

继续阅读