天天看點

海量資料遷移之使用shell啟用多個動态并行

在資料遷移中,可能有成百上千個表,有些表很大,有些表又很小。

如果啟用了多個并行的程序,可能會有資源配置設定上的問題。

比如下面有10個表,100代表預計的時間為100分鐘。

table1  100

table2  90

table3  90

table4  80

table5  80

table6  70

table7  60

table8  60

table9  50

table10 40

如果分為4個程序來并行執行,可能一種比較理想的方案就是

parallel1: table1,table8

parallel2: table2,table5,table9

parallel3: table3,table6,table9

parallel4: table4,table7

但是在實際的執行中,可能因為表的分區,表的資料類型,表的存儲的不同,可能實際的執行時間會有很大的差别,

可能paralle2,3,4已經執行完了,而parallel1還沒有執行完50%。

這樣,table8就一直pending在那了。

在這樣的情況下,可以考慮使用動态并行,就是能夠在背景啟用一些并行的程序,比如需要4個并行程序,就使用nohup啟用4個并行的程序。

不做具體的資料操作。

parfile=par2_tab_parall.lst

logfile=`echo $parfile|awk -F. '{print $1}`".log"

while true

do

if [ -f $parfile ]

then

   tab_exists_flag=`cat $parfile |wc -l`

   if [ ${tab_exists_flag} -eq 0 ]

     then

      sleep 5;

   elif [ ${tab_exists_flag} -gt 0 ]

     tab_name=`cat $parfile`

     ksh appendata.sh $tab_name >> $logfile

     touch ${parfile}.tmp

     mv ${parfile}.tmp ${parfile}

   fi

fi

done

我們使用appendata.sh來模拟實作資料的插入,其實不會做資料的真實插入,這是模拟日志的内容。

echo $1

sqlplus -s  n1/n1

set time on

set timin on

set pages 0

select 'insert into '||'$1;' from dual;

select 'commit;' from dual;

EOF

if [ $? -eq 0 ]

echo '' >parallel1.lst

使用如下的指令來啟用一個程序,比如下面的指令啟用程序2,如果啟用其他的程序,指令類似

nohup ksh par2.sh > par2_tab_parall.log &

隻需要在一個檔案中放入處理的表名即可。如果是程序2,就在par2_tab_parall.lst中放入表名,假設表為test

par2_tab_parall.lst

[ora11g@rac1 parallel]$ cat par2_tab_parall.lst

test

如果放入表test,之後,就會發現第2個程序就開始處理表test了

insert into test;

Elapsed: 00:00:00.00

commit;

Elapsed: 00:00:00.01

再放入一個表,馬上就會發現程序開始處理表tab_test了,如果沒有表的時候,它就在背景做sleep工作。

[ora11g@rac1 parallel]$ echo tab_test > par2_tab_parall.lst

tab_test

insert into tab_test;