海量数据迁移之冲突数据筛查

2021-11-14 04:00:37

对于数据迁移来说，无论准备工作准备的多么充分，在测试和正式生产环境中，心里还是会对冲突的数据有一些疑虑，心里感觉没底，因为生产的数据也是在不断变化的，要迁移的数据也在做相应的改动，在这样的环境中，其实数据抽取的工作还是顾虑比较少的，只要侧重考虑性能的提升，而在于数据加载的过程中，如果出现主键冲突的字段，不仅会严重拖慢加载的速度，关键对于这些数据的处理，让开发和dba都很头疼，开发需要dba来提供详尽的信息，dba则需要多个team之间进行协调。可能会有一些紧急的数据更改任务，数据的稽核等等。。

对于主键相关的数据排查，如果在数据迁移前能够发现，是最好的了，这样可以极大的减少dba的工作量。

个人就是在这种窘境中这样设想了一个方法，首先通过查询主键信息，得到主键索引相关的列，然后通过Intersect来查询那些主键字段的数据在生产和迁移库上有冲突，这个过程可以创建一个临时的用户来加载外部表，所以省去了创建额外的数据空间，而且可以考虑在备库上执行。排查的过程中因为走了索引扫描，所以查询比较的时候速度还是比较可观的。

基本思路就是通过如下的sql语句来找到冗余的数据。

select xxxxx,xxxxx,xxxx from source_schema.table_01 --加载外部表数据的schema

intersect

select xxxx,xxxx,xxxx from target_schema.table_01 --目标数据的schema

实现的脚本如下所示：

echo check duplicate data between $1.$2 $3.$2_EXT2 >> intersect_result.log

sqlplus -s n1/n1

set pages 0

set feedback off

set linesize 300

col intersect_sql format a1000

spool intersect_result.sql

SELECT

'select '|| SUBSTR (MAX (SYS_CONNECT_BY_PATH (column_name, ',')), 2)||' from '||table_name||chr(10)||

' intersect '||chr(10)||

'select '|| SUBSTR (MAX (SYS_CONNECT_BY_PATH (column_name, ',')), 2)||' from $3.'||table_name||'_ext2;' intersect_sql

FROM (SELECT index_name, table_name,column_name, rn, LEAD (rn) OVER (PARTITION BY index_name ORDER BY rn) rn1

FROM (SELECT index_name, table_name,column_name, ROW_NUMBER () OVER (ORDER BY column_position desc) rn

FROM all_ind_columns where table_name=upper('$2') and table_owner=upper('$1')))

START WITH rn1 IS NULL

CONNECT BY rn1 = PRIOR rn

GROUP BY index_name,table_name;

spool off;

spool intersect_result.log append

@intersect_result.sql

EOF

exit

在此基础上更近一步，可以通过如下的脚本来生成动态的执行脚本，直接执行tmp_compare.sh就可以了。其中tab_parall.lst是一个配置文件。里面包含了需要比较的表

cat ../parfile/tab_parall.lst|awk -v source_schema=$1 -v ext_schema=$2 '{print "ksh compare.sh " source_schema " " $1 " " ext_schema}' > tmp_compare.sh

tab_parall.lst的内容类似如下的格式：

table01

table02

table03

海量数据迁移之冲突数据筛查

继续阅读

终端环境之tmux

查找文件中的字符串

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

关于SQL语言

HBuilder开发App Step1——环境搭建，HelloMUI 以及真机调试

SQL语言基础：常用的数据查询语句

[HTML5]自定义属性 data-* 和 jQuery.data 详解

[转]iOS微信小视频优化心得

拒绝用户登录:/bin/false和/usr/sbin/nologin

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

Linxu常用命令技巧汇总

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

ACS基本配置-权限等级管理

android 主线程的相关问题

neo4j之cypher使用文档

sqlServer根据经纬查距离