文法結構
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list [HAVING condition]]
[CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]
]
[LIMIT number]
注:1、order by會對輸入做全局排序,是以隻有一個reducer,會導緻當輸入規模較大時,需要較長的計算時間。
2、sort by不是全局排序,其在資料進入reducer前完成排序。是以,如果用sort by進行排序,并且設定mapred.reduce.tasks>1,則sort by隻保證每個reducer的輸出有序,不保證全局有序。
3、distribute by根據distribute by指定的内容将資料分到同一個reducer。