天天看點

ETL:etl簡介

ETL是資料抽取(Extract)、清洗(Cleaning)、轉換(Transform)、裝載(Load)的過程。是建構資料倉庫的重要一環,使用者從資料源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉庫模型,将資料加載到資料倉庫中去。

ETL負責将分散的、異構資料源中的資料如關系資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、內建,最後加載到資料倉庫或資料集市中,成為聯機分析處理、資料挖掘的基礎。

ETL一詞較常出現在資料倉庫,但其對象并不局限于資料倉庫。

ETL是資料倉庫中的非常重要的一環。它是承前啟後的必要的一步。相對于關系資料庫,資料倉庫技術沒有嚴格的數學理論基礎,它更面向實際工程應用。是以從工程應用的角度來考慮,按着實體資料模型的要求加載資料并對資料進行一些系列處理,處理過程與經驗直接相關,同時這部分的工作直接關系資料倉庫中資料的品質,進而影響到聯機分析處理和資料挖掘的結果的品質。

資料倉庫是一個獨立的資料環境,需要通過抽取過程将資料從聯機事務處理環境、外部資料源和脫機的資料存儲媒體導入到資料倉庫中;在技術上,ETL主要涉及到關聯、轉換、增量、排程和監控等幾個方面;資料倉庫系統中資料不要求與聯機事務處理系統中資料實時同步,是以ETL可以定時進行。但多個ETL的操作時間、順序和成敗對資料倉庫中資訊的有效性至關重要。

參考:https://zhidao.baidu.com/question/403122350.html

ETL面臨的最大挑戰是當接收資料時其各源資料的異構性和低品質。以電信為例,A系統按照統計代碼管理資料,B系統按照賬目數字管理,C系統按照語音ID管理。當ETL需要對這三個系統進行內建以獲得對客戶的全面視角時,這一過程需要複雜的比對規則、名稱/位址正常化與标準化。而ETL在處理過程中會定義一個關鍵資料标準,并在此基礎上,制定相應的資料接口标準。ETL工具的話建議看看FineBI!
  1. 在資料倉庫的建構中,ETL貫穿于項目始終,它是整個資料倉庫的生命線,包括了資料清洗、整合、轉換、加載等各個過程。如果說資料倉庫是一座大廈,那麼ETL就是大廈的根基。ETL抽取整合資料的好壞直接影響到最終的結果展現。是以ETL在整個資料倉庫項目中起着十分關鍵的作用,必須擺到十分重要的位置。
  2. ETL是資料抽取(Extract)、轉換(Transform)、加載(Load )的簡寫,它是指:将OLTP系統中的資料抽取出來,并将不同資料源的資料進行轉換和整合,得出一緻性的資料,然後加載到資料倉庫中。
  3. 通過ETL,我們可以基于源系統中的資料來生成資料倉庫。ETL為我們搭建了OLTP系統和OLAP系統之間的橋梁,是資料從源系統流入資料倉庫的通道。在資料倉庫的項目實施中,它關系到整個項目的資料品質,是以馬虎不得,必須将其擺到重要位置,将資料倉庫這一大廈的根基築牢!

ETL即資料抽取(Extract)、轉換(Transform)、裝載(Load)的過程。它是建構資料倉庫的重要環節。資料倉庫是面向主題的、內建的、穩定的且随時間不斷變化的資料集合,用以支援經營管理中的決策制定過程。資料倉庫系統中有可能存在着大量的噪聲資料,引起的主要原因有:濫用縮寫詞、慣用語、資料輸入錯誤、重複記錄、丢失值、拼寫變化等。即便是一個設計和規劃良好的資料庫系統,如果其中存在着大量的噪聲資料,那麼這個系統也是沒有任何意義的,因為垃圾進,垃圾出(garbage in, garbage out),系統根本就不可能為決策分析系統提供任何支援。為了清除噪聲資料,必須在資料庫系統中進行資料清洗。目前有不少資料清洗研究和ETL研究,但是如何在ETL過程中進行有效的資料清洗并使這個過程可視化,此方面研究不多。本文主要從兩個方面闡述ETL和資料清洗的實作過程:ETL的處理方式[19]和資料清洗的實作方法。

(1)ETL的處理方式

本文所采用的ETL方法是資料庫段區域中的ETL處理方式,它不使用外部引擎而是使用資料庫作為唯一的控制點。由于源系統SQLserver2000是關系資料庫,它的段表也是典型的關系型表。成功地将外部未修改資料載入資料庫後,再在資料庫内部進行轉換。資料庫段區域中的ETL處理方式執行的步驟是提取、裝載、轉換,即通常所說的ELT。[21]這種方式的優點是為抽取出的資料首先提供一個緩沖以便于進行複雜的轉換,減輕了ETL程序的複雜度。

(2)ETL過程中實作資料清洗的實作方法

首先,在了解源資料的基礎上實作資料表屬性一緻化。為解決源資料的同義異名和同名異義的問題,可通過中繼資料管理子系統,在了解源資料的同時,對不同表的屬性名根據其含義重新定義其在資料挖掘庫中的名字,并以轉換規則的形式存放在中繼資料庫中,在資料內建的時候,系統自動根據這些轉換規則将源資料中的字段名轉換成新定義的字段名,進而實作資料挖掘庫中的同名同義。

其次,通過資料縮減,大幅度縮小資料量。由于源資料量很大,處理起來非常耗時,是以可以優先進行資料縮減,以提高後續資料處理分析效率。

最後,通過預先設定資料處理的可視化功能節點,達到可視化的進行資料清洗和資料轉換的目的。針對縮減并內建後的資料,通過組合預處理子系統提供各種資料處理功能節點,能夠以可視化的方式快速有效完成資料清洗和資料轉換過程。

ETL