hive：order by,sort by, distribute by, cluster by作用以及用法

Hive基于HADOOP来执行分布式程序的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件，这导致了在HADOOP环境下很难对数据进行全局排序，如果在HADOOP上进行order by全排序，会导致所有的数据集中在一台reducer节点上，然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。

4个By区别 1）Sort By：分区内有序； 2）Order By：全局排序，只有一个Reducer； 3）Distrbute By：类似MR中Partition，进行分区，结合sort by使用。 4） Cluster By：当Distribute by和Sorts by字段相同时，可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

1. order by

Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，但是只能有一个partition，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。

这里跟传统的sql还有一点区别：如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。

2. sort by

sort by 排序出来的数据是局部有序的，但是全局无序。即partition内部是有序的，但是partition与partition之间的数据时没有顺序关系的。

Hive中指定了sort by，那么在每个reducer端都会做排序，也就是说保证了局部有序（每个reducer出来的数据是有序的，但是不能保证所有的数据是有序的，除非只有一个reducer），好处是：执行了局部排序之后可以为接下去的全局排序提高不少的效率（其实就是做一次归并排序就可以做到全局排序了）。

3. distribute by和sort by一起使用

distribute by是控制map的输出在reducer是如何划分的。

举个例子，我们有一张表，mid是指这个store所属的商户，money是这个商户的盈利，name是这个store的名字。

store：

mid money name

AA 15 商店1

BB 16 商店2

CC 17 商店3

DD 18 商店4

AA 20 商店5

执行hive语句：

select mid, money, name from tmp.by_test1 distribute by mid sort by mid asc, money asc

hive：order by,sort by, distribute by, cluster by作用以及用法

select mid, money, name from tmp.by_test1 distribute by mid sort by mid asc, money desc

hive：order by,sort by, distribute by, cluster by作用以及用法

我们所有的mid相同的数据会被送到同一个reducer去处理，这就是因为指定了distribute by mid。

这样的话就可以统计出每个商户中各个商店盈利的排序了（某个商户的所有的商店肯定是全局有序的，因为相同的商户会放到同一个reducer去处理）。这里需要注意的是distribute by必须要写在sort by之前。

注意：

distribute by不必非要跟sort by一起用，单独使用distribute by即相当于聚合（只是把数据聚集到一起，比如这里按商户，把各商户自己的商店数据聚集到一起，非数据的累加等聚合），加上sort by就是对聚合后各类分别排序。一起使用能实现某些场景而已。

4. cluster by

cluster by的功能就是distribute by和sort by相结合。

如下2个语句是等价的：

select mid, money, name from tmp.by_test1 cluster by mid select mid, money, name from tmp.by_test1 distribute by mid sort by mid

如果需要获得与3中语句一样的效果：

select mid, money, name from tmp.by_test1 cluster by mid sort by money --报错

注意被cluster by指定的列只能是升序，不能指定asc和desc。

hive：order by,sort by, distribute by, cluster by作用以及用法

继续阅读

luogu1078 文化之旅

Hadoop离线_Hive的基本操作

Hive中内部表、外部表、分区、分桶以及SQL的执行顺序

Hive中的内部表外部表及分区表

Hive---外部分区表的创建

Hive学习笔记 3 Hive的数据模型：内部表、分区表、外部表、桶表、视图

HiveQL(二):分区表

Hive的分区表入门

Hive的分区表

Hive（二）--分区分桶，内部表外部表

大数据高频面试题之Hive的小文件合并

世界因大数据而改变

hive sql通过具体地址解析出行政区划(省＞市＞区＞县＞乡＞镇＞村)

Hive最全常见错误及解决方案hive --service metastore &

《Hive权威指南》第八章：HiveQL索引8 HiveQL：索引

HiveQl语句应用实例：WordCount具体步骤如下：