天天看點

《Hive程式設計指南》一導讀

《Hive程式設計指南》一導讀

hive程式設計指南

本書是一本hive的程式設計指南。hive是hadoop生态系統中必不可少的一個工具,它提供了一種sql(結構化查詢語言)方言,可以查詢存儲在hadoop分布式檔案系統(hdfs)中的資料或其他和hadoop內建的檔案系統,如mapr-fs、amazon的s3和像hbase(hadoop資料庫)和cassandra這樣的資料庫中的資料。

大多數資料倉庫應用程式都是使用關系資料庫進行實作的,并使用sql作為查詢語言。hive降低了将這些應用程式轉移到hadoop系統上的難度。凡是會使用sql語言的開發人員都可以很輕松地學習并使用hive。如果沒有hive,那麼這些使用者就必須學習新的語言和工具,然後才能應用到生産環境中。另外,相比其他工具,hive更便于開發人員将基于sql的應用程式轉移到hadoop中。如果沒有hive,那麼開發者将面臨一個艱巨的挑戰,如何将他們的sql應用程式移植到hadoop上。

不過,hive和其他基于sql的環境還是有一些差異的。如今,可供hive使用者和hadoop開發者使用的文檔并不多,是以我們決定撰寫這本書來填補這個缺口。我們将對hive進行全面詳實的介紹,主要适用于sql專家,如資料庫設計人員和業務分析師。我們也談到了深入的技術細節,可以幫助hadoop開發人員對hive進行調優和定制。

第2章 基礎操作

第3章 資料類型和檔案格式

第4章 hiveql:資料定義

第5章 hiveql:資料操作

第6章 hiveql:查詢

第7章 hiveql:視圖

第8章 hiveql:索引

第9章 模式設計

第10章 調優

第11章 其他檔案格式和壓縮方法

第12章 開發

第13章 函數

第14章 streaming

第15章 自定義hive檔案和記錄格式

第16章 hive的thrift服務

第17章 存儲處理程式和nosql

第18章 安全

第19章 鎖

第20章 hive和oozie整合

第21章 hive和亞馬遜網絡服務系統(aws)

第22章 hcatalog

第23章 案例研究