天天看点

hive on hbas原理场景及性能分析

使用场景

熟悉大数据的同学应该都知道,Hive是一个分布式的数据仓库,它能够将海量数据,结构化存储到HDFS上,然后通过SQL的方式对这些海量数据进行业务处理。而且,Hive学习成本很低,熟悉SQL的同学,很快就能编写一个Hive应用程序。

我们通过Hive把数据加载到HBase表中时,数据源可以是文件,也可以是表。当HBase集群集成Hive后,如果对Hive表追加数据的同时,HBase表中的数据也会增加。在原生的HBase集群中,HBase表不支持连接查询或是分组查询等,但是我们可以通过Hive On HBase的方式来让HBase集群支持这些功能。比如,事先将数据加载到Hive表中,然后通过Hive SQL的JOIN、GROUP BY等语法来操作。

原理

性能瓶颈分析