Hive（1）初识Hive

文章目录

- - Hive概述
  - Hive和Hadoop的关系
  - Hive和RDBMS对比
  - Hive的数据存储
  - HIve优缺点
  - 驱动（Driver）：编译器、优化器、执行器

Hive概述

hive是什么？

基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务
架构

Hive（1）初识Hive

基本组成（用户接口）

CLI：是一个和Hive通过命令行交互的接口。

thrift server（JDBC/ODBC）：提供了可以从不同编程语言编写的客户端访问Hive的接口，支持身份验证和多用户并发访问。

Web UIHive Web Interface）：Web接口，可以通过浏览器访问Hive。
元数据存储

1）元数据是什么？

存储在Hive中的数据的描述信息

2）有哪些？

表的名、表的列和分区以及属性（内部表和外部表）、表的数据所在目录

3）存在哪儿？

自带Derby。缺点：不适合多用户操作，并且数据存储目录不确定

4）解决方案

存在自己创建的MySQL中（本地或远程）
解释器、编译器、优化器、执行器

这四大组件完成 HQL 查询语句从词法分析、语法分析、编译、优化以及生成查询计划的生成。生成的查询计划存储在 HDFS 中，并随后由 MapReduce 调用执行
执行流程

HiveQL 通过命令行或者客户端提交，经过 Compiler 编译器，运用 MetaStore 中的元数据进行类型检测和语法分析，生成一个逻辑方案(logical plan)，然后通过的优化处理，产生一个 MapReduce 任务

Hive和Hadoop的关系

Hive（1）初识Hive

Hive 将 HQL 转换成 MapReduce 执行， Hive 依赖于 HDFS 存储数据

所以说 Hive 是基于 Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架

Hive和RDBMS对比

Hive（1）初识Hive

Hive 具有 SQL 数据库的外表，但应用场景完全不同， Hive 只适合用来做批量海量数据统计分析，也就是数据仓库

Hive的数据存储

数据存储格式

可支持 TextFile、SequenceFile、 ParquetFile、RCFILE 等
解析数据

只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符
数据模型

db

在 HDFS 中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
able

在 HDFS 中表现所属 db 目录下一个文件夹
external table

与 table 类似，不过其数据存放位置可以在任意指定路径
partition

在 HDFS 中表现为 table 目录下的子目录
bucket

在 hdfs 中表现为同一个表目录下根据 hash 散列之后的多个文件

HIve优缺点

优点：Hive作为一个基于Hadoop的数据仓库工具，提供了简单的SQL查询功能，简化了MapReduce的编写操作，适用于大数据集的批处理作业，例如，网络日志分析。

缺点：Hive的HQL表达能力有限，对于较复杂的运算HQL不易表达；另外，Hive具有高延迟性，不适合那些低延迟的应用，如：OLTP系统。它不提供实时的查询和基于行级的数据更新操作，

驱动（Driver）：编译器、优化器、执行器

用户提交SQL给HIve，由Driver负责解析SQL，在解析时会加载相关的元数据信息，生成执行计划，然后生成Job交给Hadoop运行，然后Driver将结果返回给用户。

编译器：Hive的核心，负责SQL语句的语法、语义解析，生成查询计划。

1、语义解析器（ParseDriver），将查询字符串转换成解析树表达式；

2、语法解析器（SemanticAnalyzer），将解析树转换成基于语句块的内部查询表达式；

3、逻辑计划生成器（Logical Plan Generator），将内部查询表达式转换为逻辑计划，这些计划由逻辑操作树组成，操作符是Hive的最小处理单元，每个操作符处理代表一道HDFS操作或者是MR作业；

4、查询计划生成器（QueryPlan Generator），将逻辑计划转化成物理计划（MR Job）。

生成的查询计划存储在 HDFS 中，并在随后由 MapReduce 调用执行。

优化器：优化器是一个演化组件，当前它的规则是：列修剪，谓词下压。
执行器：编译器将操作树切分成一个Job链（DAG），执行器会顺序执行其中所有的Job；如果Task链不存在依赖关系，可以采用并发执行的方式进行Job的执行。

Hive（1）初识Hive

文章目录

Hive概述

Hive和Hadoop的关系

Hive和RDBMS对比

Hive的数据存储

HIve优缺点

驱动（Driver）：编译器、优化器、执行器

继续阅读

《Hive权威指南》第八章：HiveQL索引8 HiveQL：索引

Windows下Cygwin环境的Hadoop安装（3）- 运行hadoop中的wordcount实例遇到的问题和解决方法

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

HiveQl语句应用实例：WordCount具体步骤如下：

hadoop操作遇到的问题问题一：输出文件已存在

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理