天天看点

《Hive编程指南》一导读

《Hive编程指南》一导读

hive编程指南

本书是一本hive的编程指南。hive是hadoop生态系统中必不可少的一个工具,它提供了一种sql(结构化查询语言)方言,可以查询存储在hadoop分布式文件系统(hdfs)中的数据或其他和hadoop集成的文件系统,如mapr-fs、amazon的s3和像hbase(hadoop数据库)和cassandra这样的数据库中的数据。

大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用sql作为查询语言。hive降低了将这些应用程序转移到hadoop系统上的难度。凡是会使用sql语言的开发人员都可以很轻松地学习并使用hive。如果没有hive,那么这些用户就必须学习新的语言和工具,然后才能应用到生产环境中。另外,相比其他工具,hive更便于开发人员将基于sql的应用程序转移到hadoop中。如果没有hive,那么开发者将面临一个艰巨的挑战,如何将他们的sql应用程序移植到hadoop上。

不过,hive和其他基于sql的环境还是有一些差异的。如今,可供hive用户和hadoop开发者使用的文档并不多,所以我们决定撰写这本书来填补这个缺口。我们将对hive进行全面详实的介绍,主要适用于sql专家,如数据库设计人员和业务分析师。我们也谈到了深入的技术细节,可以帮助hadoop开发人员对hive进行调优和定制。

第2章 基础操作

第3章 数据类型和文件格式

第4章 hiveql:数据定义

第5章 hiveql:数据操作

第6章 hiveql:查询

第7章 hiveql:视图

第8章 hiveql:索引

第9章 模式设计

第10章 调优

第11章 其他文件格式和压缩方法

第12章 开发

第13章 函数

第14章 streaming

第15章 自定义hive文件和记录格式

第16章 hive的thrift服务

第17章 存储处理程序和nosql

第18章 安全

第19章 锁

第20章 hive和oozie整合

第21章 hive和亚马逊网络服务系统(aws)

第22章 hcatalog

第23章 案例研究