海量資料遷移之資料抽取流程

2021-11-14 03:45:21

在之前的一些博文中花了大篇幅介紹了采用外部表抽取的一些細節，可能細節到了，基本原理的内容還希望再補充補充。

采用外部表抽取資料的流程圖如下：

大體标注了一下抽取的基本結構，我們會盡量保證不去碰原本的資料源，會建立兩個臨時的使用者，一個是隻讀使用者，這個使用者上隻有同義詞，隻具有資料源中的select權限。這就對應上面紅色标注的1，而另外一個使用者是外部表使用者，所有通過建立外部表都會在這個使用者下進行，生成了dump檔案之後，我們可以随時删除外部表，這個時候為了保證相關的drop操作不會牽扯到資料源，外部表使用者會繼承隻讀使用者中的select權限。這就對應紅色标注的2.

當開始抽取資料的時候，會去查找是否有權限讀取資料，會找到隻讀使用者，最終能夠讀取資料源的資料，這就對應紅色标注的3,4

當滿足了基本的條件，就開始生成外部表的dump，可以為一個表生成多個dump，而且這個過程是并行的，這就對應紅色标注的5

對于步驟5，是抽取的關鍵，基本的原理可以參考下面的僞代碼，黃色标注的重點部分。

CREATE TABLE MO1_MEMO_EXT

ORGANIZATION EXTERNAL

(

TYPE ORACLE_DATAPUMP

DEFAULT DIRECTORY xxxxx

LOCATION (

‘xxxx1.dmp’,‘xxxx2.dmp’)

)

parallel xx as

SELECT /*+ parallel(t xx) */

FROM 隻讀使用者.MO1_MEMO;

我們使用了外部表的oracle_datapump引擎，可以在指定的目錄下生成多個dump檔案，我們可以指定并行度，指定多個dump的名稱等等。這些都需要通過程式設計來控制和管理這些複雜的部分。

海量資料遷移之資料抽取流程

繼續閱讀

基金恒市值定投源碼

#為什麼台風“卡努”的預報路徑成迷#關于台風預報路徑“卡努”成迷小編分析可能有以下幾個原因：1.台風路徑難以準确預測：台

python爬蟲第1章 urllib庫（一） urllib庫概述python爬蟲第1章 urllib庫（一） urllib庫概述

【DrissionPage】DrissionPage是一個基于python的網頁自動化工具。它既能控制浏覽器，也能收發數

第二章 K8s ingress控制器

華彙項目後評價系統助力政企項目“後評價”時代

【示波器】基于FPGA的數字示波器設計實作

電池巡檢單元通用型4節電池電壓和溫度監測:☞4節電池的電壓監測、4路電池的溫度監測、1路繼電器輸出、CAN-BUS級聯通

利用PLC-Recorder的錄波和虛拟變量功能，實作PLC采集資料的後處理或複雜計算1、用Ana打開待分析的資料檔案，獲得原始的資料和曲線2、添加虛拟變量3、退出配置視窗即可得到總流量曲線4、小結

資料的采集

自動快捷使用資料采集器采集某網站資料---後裔采集器

專業PLC資料采集軟體PLC-Recorder通過ADS通訊進行倍福TwinCAT2和TwubCAT3資料采集的介紹一、通道配置二、變量配置三、通過左側的按鈕進行啟停控制四、調用離線分析軟體，進行後續資料分析五、小結

資料采集過程介紹簡介資料的總體采集過程如下：

工廠流水線資料采集方案工廠流水線資料采集方案2、資料采集層

2020年9月，星閃聯盟正式成立。從正式啟動标準化工作到首次商用僅用了兩年多的時間，成為史上發展最快的近距離無線技術。華

flume實時寫資料到HA模式下的hdfs