海量高性能列式数据库HiStore介绍

histore是阿里中间件技术团队研发的数据库产品，是一款基于独特的知识网格技术的列式数据库，定位于海量数据高压缩比列式存储，是低存储成本，低维护成本，海量数据olap存储引擎；有效的解决了海量数据存储的成本问题，以及在百亿数据场景下支持实时高效的多维度自由组合的检索。

<a></a>

• 存储数据量大：tb级数据大小，百亿条记录。数据量存储主要依赖自己提供的高速数据加载工具（2tb/小时）和高数据压缩比（>10:1）；

• 高压缩比：平均压缩比>10:1，远高于常规压缩算法，甚至可以达到40:1，极大地节省了数据存储空间。高数据压缩比主要依赖列式存储和patent-pending的灵活压缩算法;

• 基于列存储：无需建索引，无需分区。即使数据量十分巨大，查询速度也很快。用于数据仓库。不需要建索引，就避免了维护索引及索引随着数据膨胀的问题。把每列数据分块压缩存放，每块有知识网格节点记录块内的统计信息，代替索引，加速搜索；

• 大数据量查询性能强劲、稳定：亿级记录数条件下，同等的select查询语句，速度比myisam、innodb等普通的mysql存储引擎快30倍。高效查询主要依赖特殊设计的存储结构对查询的优化，但这里优化的效果还取决于数据库结构和查询语句的设计；

• 并行导入：基于mysql的协议的并行导入，以及专门的入库工具;

• 高并发：实时性的多维数据检索；实时数据导入，海量数据秒级检索；为实时业务提供保障；

• 线性扩展：结合tddl / drds，可实现存储容量和处理能力的线性提升;

• 系统易用：迁移成本低，无其它依赖独立部署，mysql工具及应用可直接无缝运行其上；

• 快速响应复杂的聚合类查询：适合复杂的分析性的sql查询，如sum，count，avg，group by;

• 节约设计开销，没有复杂的数据仓库模型设计要求(比如星状模型、雪花模型)，无需要物化视图、数据分区、索引建立；

• 节省存储资源，高压缩比率通常是10：1，某些应用可能达到40：1;

• 集成利用广泛，和众多的bi套件相容，比如pentaho的，cognos公司，jaspersof;

• 降低运维成本，随着数据库的逐渐增大，查询和装载性能持续保持稳定，实施和管理简单，需要极少的管理；

• 分库分表支持，结合tddl/drds，可实现无缝的横向扩展功能和处理能力的线性提升；

• 日志/事件管理系统：调用链路日志跟踪，消息轨迹分析，系统/网络安全审计记录;

• 通信行业：话单分析，用户行为分析等;

• 大数据量的分析应用：网页/在线分析，移动分析，客户行为分析，营销和广告数据;

• 数据仓库/数据集市：实时展示统计分析后数据，便于用户根据统计结果做决策;

• 对数据存储成本敏感，查询有实时性要求的场景应考虑histore;

• 物联网：保存大量物理节点的采集上报，状态等信息，用于后期统计处理;

• 历史评价数据，历史订单数据等;

histore的核心技术之一，histore在执行查询的时候会根据知识网络（知识网格）把dn分成三类：

• 相关的dn（相关节点），满足查询条件限制的dn

• 不相关的dn（无关节点），不满足查询条件限制的dn

• 可疑的dn（可疑节点），dn里面的数据部分满足查询条件的限制

no.

column

type

desc

seller_id

bigint

卖家id

feed_id

主评id

feedback

varchar(4000)

主评内容

gmt_modify

datetime

修改时间

infobright

infinidb

pivotal greenplum

amazon redshift

teradata db

hp vertica

sap hana

ibm netezza

神舟通用，kstore

华为高斯db

达梦数据库dm7

海量高性能列式数据库HiStore介绍

继续阅读

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

MySQL的4种隔离级别？出现问题

数据结构与算法（27）——排序（二）

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

Dijkstra--简易版（最短路径）

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

NOSQL安全攻击

mybatis_入门程序Mybatis入门

登录plsql 报错 the account is locked --用户被锁

SequoiaDB巨杉数据库C++驱动概述

win10本地scala和spark安装安装scala安装spark

hdu7108哈希