48 Hive建立表

2021-07-07 11:28:49

建表文法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
   [(col_name data_type [COMMENT col_comment], ...)] 
   [COMMENT table_comment] 
   [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
   [CLUSTERED BY (col_name, col_name, ...) 
   [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
   [ROW FORMAT row_format] 
   [STORED AS file_format] 
   [LOCATION hdfs_path]

1、CREATE TABLE建立一個指定名字的表。如果相同名字的表已經存在，則抛出異常；使用者可以用IF NOT EXISTS選項來忽略這個異常。

2、EXTERNAL關鍵字可以讓使用者建立一個外部表，在建表的同時指定一個指向實際資料的路徑（LOCATION），Hive 建立内部表時，會将資料移動到資料倉庫指向的路徑；若建立外部表，僅記錄資料所在的路徑，不對資料的位置做任何改變。在删除表的時候，内部表的中繼資料和資料會被一起删除，而外部表隻删除中繼資料，不删除資料。

3、LIKE允許使用者複制現有的表結構，但是不複制資料。

4、使用者在建表的時候可以自定義 SerDe 或者使用自帶的 SerDe。如果沒有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将會使用自帶的 SerDe。在建表的時候，使用者還需要為表指定列，使用者在指定表的列的同時也會指定自定義的 SerDe，Hive通過 SerDe 确定表的具體的列的資料。

ROW FORMAT 
DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] 
        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] 
   | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

5、如果檔案資料是純文字，可以使用 STORED AS TEXTFILE。如果資料需要壓縮，使用 STORED AS SEQUENCEFILE。

STORED AS 
SEQUENCEFILE|TEXTFILE|RCFILE

6、CLUSTERED BY

對于每一個表（table）或者分區， Hive可以進一步組織成桶，也就是說桶是更為細粒度的資料範圍劃分。Hive也是針對某一列進行桶的組織。Hive采用對列值哈希，然後除以桶的個數求餘的方式決定該條記錄存放在哪個桶當中。把表（或者分區）組織成桶（Bucket）有兩個理由：

獲得更高的查詢處理效率。桶為表加上了額外的結構，Hive 在處理有些查詢時能利用這個結構。具體而言，連接配接兩個在（包含連接配接列的）相同列上劃分了桶的表，可以使用 Map 端連接配接（Map-side join）高效的實作。比如JOIN操作。對于JOIN操作兩個表有一個相同的列，如果對這兩個表都進行了桶操作。那麼将儲存相同列值的桶進行JOIN操作就可以，可以大大較少JOIN的資料量。
使取樣（sampling）更高效。在處理大規模資料集時，在開發和修改查詢的階段，如果能在資料集的一小部分資料上試運作查詢，會帶來很多友善。

具體執行個體

create table student_p(Sno int,Sname string,Sex string,Sage int,Sdept string) partitioned by(part string) row format delimited fields terminated by ','stored as textfile;

48 Hive建立表

建表文法

具體執行個體

繼續閱讀

Hive 01 概述、安裝配置

Hive的執行計劃檢視Explain 檢視執行計劃（重點）

面試題: LEAD 和 LAG 求每個使用者的頁面停留時長執行個體：求每個使用者的頁面停留時長

Hive學習筆記（一）—— Hive的入門Hive 基本概念

Hive資料倉庫設計的四個層次設計

hive常用函數整理

Hive學習總結（四）之hive資料庫操作(上)

Hive常用字元串操作函數（大多數MySQL也能用）常用字元串操作函數拼接字元串

hive通過grouping sets多元度組合去重統計避免使用distinct

大資料開發之Hive優化篇8-Hive Job優化Hive job優化概述一.并行執行二.本地執行三.合并輸入小檔案四.合并輸出小檔案五.控制Map/Reduce數參考

Hive---分區表和分桶表分區表和分桶表分區表分桶表差別

Hive學習筆記（三）——shell指令行

Hive 資料的導入與導出資料導入資料導出

大資料之資料倉庫工具Hive介紹

Hive開篇基本介紹Hive是個啥玩意

hive50道題帶查詢結果