
hive编程指南
本书是一本hive的编程指南。hive是hadoop生态系统中必不可少的一个工具,它提供了一种sql(结构化查询语言)方言,可以查询存储在hadoop分布式文件系统(hdfs)中的数据或其他和hadoop集成的文件系统,如mapr-fs、amazon的s3和像hbase(hadoop数据库)和cassandra这样的数据库中的数据。
大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用sql作为查询语言。hive降低了将这些应用程序转移到hadoop系统上的难度。凡是会使用sql语言的开发人员都可以很轻松地学习并使用hive。如果没有hive,那么这些用户就必须学习新的语言和工具,然后才能应用到生产环境中。另外,相比其他工具,hive更便于开发人员将基于sql的应用程序转移到hadoop中。如果没有hive,那么开发者将面临一个艰巨的挑战,如何将他们的sql应用程序移植到hadoop上。
不过,hive和其他基于sql的环境还是有一些差异的。如今,可供hive用户和hadoop开发者使用的文档并不多,所以我们决定撰写这本书来填补这个缺口。我们将对hive进行全面详实的介绍,主要适用于sql专家,如数据库设计人员和业务分析师。我们也谈到了深入的技术细节,可以帮助hadoop开发人员对hive进行调优和定制。
第2章 基础操作
第3章 数据类型和文件格式
第4章 hiveql:数据定义
第5章 hiveql:数据操作
第6章 hiveql:查询
第7章 hiveql:视图
第8章 hiveql:索引
第9章 模式设计
第10章 调优
第11章 其他文件格式和压缩方法
第12章 开发
第13章 函数
第14章 streaming
第15章 自定义hive文件和记录格式
第16章 hive的thrift服务
第17章 存储处理程序和nosql
第18章 安全
第19章 锁
第20章 hive和oozie整合
第21章 hive和亚马逊网络服务系统(aws)
第22章 hcatalog
第23章 案例研究