天天看点

Greenplum数据增量导入的唯一值自增处理

阿里云的greenplum(以下简称gp)已经公测了一段时间,陆续接到很多用户的反馈。其中一些使用上的问题比较有趣,在这里与大家分享一下。

其中一个case是字段的唯一键和自增值问题。在导入gp之前,某id字段已经保证了唯一性,但在此次导入之后,可能会有更多的导入,这个时候希望gp在原来最大id值的基础上自增。

gp是在postgresql(以下简称pg)上开发而来,其操作基本沿用。在pg上,实现自增的方法是通过serial:

这里的serial,并不是一个数据类型,而是通过建立一个全局序列“tuniq_id_seq”(表名_字段名_seq)实现的,每次插入的时候会从这个seq中取值作为字段的默认值,从而做到自增。

那么,如果你执行下面的语句会怎么样?

在id没有唯一约束的情况下,这是可以执行成功的。原因是id字段并没有加任何约束,而serial只是简单的从sequence给id赋值而已。这样就带来一个问题:

如果在这个字段上有唯一约束的话,那么开始的时候导入包括id在内的数据,之后执行不包括id的插入的时候,就会去从sequence取值。而这个时候,因为sequence的当前最新值尚未更新,所以可能会出现与已导入数据冲突的情况,如:

这个问题的解决方法也很简单:

那如果是开始加了唯一键约束,但没有采用serial该如何实现字段的继续递增?

正所谓:知其然,知其所以然。serial的原理,不过是从sequence取值作为字段的默认值而已。那如果想要做到类似的方式,用同样的方式做就好了。

让我们模拟一下这个场景:

这个数据已经导入完成,后续想让id键自增的话,需要先建一个sequence,并更新到最新的值:

这个时候,就可以把sequence的值作为tuniq表id字段的默认值了,如:

从以上我们可以看出,用pg/gp的自增需要注意:

serial是通过sequence设置字段的默认值

可以考虑加上唯一约束,防止主动插入该字段的值,破坏该字段值的自增序和唯一性(如果业务关心的话)

继续阅读