天天看點

資料倉庫系列之ETL過程和ETL工具

      上周因為在處理很多資料源內建的事情一直沒有更新系列文章,在這周後開始規律更新。在次元模組化中我們已經了解資料倉庫中的次元模組化方法以及基本要素,在這篇文章中我們将學習了解資料倉庫的ETL過程以及實用的ETL工具。

      一、什麼是ETL?

      建構資料倉庫的核心是模組化,在資料倉庫的建構中,ETL貫穿于項目始終,它是整個資料倉庫的生命線。從資料源中抽取資料,然後對這些資料進行轉化,最終加載到目标資料庫或者資料倉庫中去,這也就是我們通常所說的 ETL 過程(Extract,Transform,Load)。

       通常資料抽取工作分抽取、清洗、轉換、裝載幾個步驟:

資料倉庫系列之ETL過程和ETL工具

        抽取主要是針對各個業務系統及不同伺服器的分散資料,充分了解資料定義後,規劃需要的資料源及資料定義,制定可操作的資料源,制定增量抽取和緩慢漸變的規則。

       清洗主要是針對系統的各個環節可能出現的資料二義性、重複、不完整、違反業務規則等資料品質問題,允許通過資料抽取設定的資料品質規則,将有問題的記錄先剔除出來,根據實際情況調整相應的清洗操作。

       轉換主要是針對資料倉庫建立的模型,通過一系列的轉換來實作将資料從業務模型到分析模型,通過ETL工具可視化拖拽操作可以直接使用标準的内置代碼片段功能、自定義腳本、函數、存儲過程以及其他的擴充方式,實作了各種複雜的轉換,并且支援自動分析日志,清楚的監控資料轉換的狀态并優化分析模型。

       裝載主要是将經過轉換的資料裝載到資料倉庫裡面,可以通過直連資料庫的方式來進行資料裝載,可以充分展現高效性。在應用的時候可以随時調整資料抽取工作的運作方式,可以靈活的內建到其他管理系統中。

       二、   資料倉庫ETL工具有哪些?

       ETL過程我們簡單介紹了一下,接下來我們來了解市面上資料倉庫解決方案。以下五種ETL工具是我基本接觸過的産品,個人根據産品對應官網以及提供的資料總結,對比的五種ETL工具(SEDWA、kettle、OracleGoldengate、informatica、talend)的比較,目前對于這些工具也是初步了解,後續根據實際的體驗學習後再來進一步總結豐富對比次元資訊。注意工具排名不分先後,個人認為技術沒有絕對的好壞,關鍵是看大家使用的場景。實際工作中選購滿足公司需要的産品即可。 

資料倉庫系列之ETL過程和ETL工具

       好了,有關于ETL過程和ETL工具就介紹到這裡。下一篇我們開始來了解資料倉庫的架構(資料倉庫建設的總體規劃)。本文中如有錯誤或誤導的地方歡迎大家指出糾正。 希望這篇文章能夠給大家帶來幫助,最後感謝大家的閱讀。歡迎大家一起加入高效資料處理ETL交流群,一起讨論資料分析ETL過程的問題,一起學習一起成長。

 掃碼加群:

資料倉庫系列之ETL過程和ETL工具

小黎子,一個專注于資料分析整體資料倉庫解決方案的程式猿!

作 者:黃昏前黎明後

出 處:http://www.cnblogs.com/fly-bird/

歡迎關注個人公衆号:小黎子資料分析,轉載文章請務必注明出處。

繼續閱讀