天天看點

資料湖、資料倉庫、資料中台基礎概念解讀

現在各種新名詞層出不窮,頂層的有數字城市、智慧地球、智慧城市、城市大腦;企業層面的有數字化轉型、網際網路經濟,數字經濟、數字平台; 平台層面的有物聯網,雲計算,大資料,5G,人工智能,機器智能,深度學習,知識圖譜;技術層面的有資料倉庫、資料集市、大資料平台、資料湖、資料中台、業務中台、技術中台等等,總之是你方唱罷他登場,各種概念滿天飛。

在資料技術方面,随着大資料技術的不斷更新和疊代,資料管理工具得到了飛速的發展,相關概念如雨後春筍一般應運而生,如從最初決策支援系統(DSS)到商業智能(BI)、資料倉庫、資料湖、資料中台等。

基礎概念

一、資料倉庫

資料倉庫平台逐漸從BI報表為主到分析為主、到預測為主、再到操作智能為目标。

從過去報表發生了什麼--->分析為什麼過去會發生---->将來會發生什麼---->什麼正在發生----->讓正确的事情發生

資料倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、內建的(Integrated)、相對穩定的(Non-Volatile)、反映曆史變化的(Time Variant)資料集合,用于支援管理決策和資訊的全局共享。

所謂主題:是指使用者使用資料倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售管道等;所謂面向主題,是指資料倉庫内的資訊是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。

所謂內建:是指資料倉庫中的資訊不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和彙總的過程,是以資料倉庫中的資訊是關于整個企業的一緻的全局資訊。

所謂随時間變化:是指資料倉庫内的資訊并不隻是反映企業目前的狀态,而是記錄了從過去某一時點到目前各個階段的資訊。通過這些資訊,可以對企業的發展曆程和未來趨勢做出定量分析和預測。

資料倉庫系統除了包含分析産品本身之外,還包含資料內建、資料存儲、資料計算、門戶展現、平台管理等其它一系列的産品。

二、資料湖

資料湖(Data Lake)是Pentaho的CTO James Dixon提出來的,是一種資料存儲理念——即在系統或存儲庫中以自然格式存儲資料的方法。

資料湖(Data Lake)是一個存儲企業的各種各樣原始資料的大型倉庫,其中的資料可供存取、處理、分析及傳輸。資料湖是以其自然格式存儲的資料的系統或存儲庫,通常是對象blob或檔案。資料湖通常是企業所有資料的單一存儲,包括源系統資料的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換資料。資料湖可以包括來自關系資料庫(行和列)的結構化資料,半結構化資料(CSV,日志,XML,JSON),非結構化資料(電子郵件,文檔,PDF)和二進制資料(圖像,音頻,視訊)。

目前,Hadoop是最常用的部署資料湖的技術,是以很多人會覺得資料湖就是Hadoop叢集。資料湖是一個概念,而Hadoop是用于實作這個概念的技術。

三、資料中台

1)傳統的資料倉庫不能滿足資料分析需求

企業在資料分析應用方面呈現“五大轉變”(從統計分析向預測分析轉變、從單領域分析向跨領域轉變、從被動分析向主動分析轉變、從非實時向實時分析轉變、從結構化資料向多元化轉變),并且對統一的資料中台平台訴求強烈,對資料中台的運算能力、核心算法、及資料全面性提出了更高的要求。

2)資料中台的處理架構發生了變化

一是以Hadoop、Spark等分布式技術群組件為核心的“計算&存儲混搭”的資料處理架構,能夠支援批量和實時的資料加載以及靈活的業務需求。

二是資料的預處理流程正在從傳統的ETL結構向ELT轉變。傳統的資料倉庫內建處理架構是ETL結構,這是建構資料倉庫的重要一環,即使用者從資料源抽取出所需的資料,經過資料清洗,将資料加載到資料倉庫中去。而大資料背景下的架構體系是ELT結構,其根據上層的應用需求,随時從資料中台中抽取想要的原始資料進行模組化分析。

資料中台成為熱點,“中台”這個概念,是相對于前台和背景而生,是前台和背景的連結點,将業務共同的工具和技術予以沉澱。資料中台是指資料采集交換、共享融合、組織處理、模組化分析、管理治理和服務應用于一體的綜合性資料能力平台,在大資料生态中處于承上啟下的功能,提供面向資料應用支撐的底座能力。

廣義上來給資料中台一個企業級的定義:“聚合和治理跨域資料,将資料抽象封裝成服務,提供給前台以業務價值的邏輯概念”。

中台戰略核心是資料服務的共享。中台戰略并不是搭建一個資料平台,但是中台的大部分服務都是圍繞資料而生,資料中台是圍繞向上層應用提供資料服務建構的,中台戰略讓資料在資料平台和業務系統之間形成了一個良性的閉環,也就是實作應用與資料之間解藕,并實作緊密互動。

靈活前台:一線作戰單元,強調靈活互動及穩定傳遞的組織能力建設。

業務中台:能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應,産品化業務化,開辟全新生态。

資料中台:資産整合與共享,整合多元資料,統一資産管理,連通資料孤島,共享資料資源,深入挖掘資料,盤活資産價值。

穩定背景:以共享中心建設為核心,為前中台提供專業的内部服務支撐。

橫向比較

1、資料倉庫與資料湖差異

在儲存方面上,資料湖中資料為非結構化的,所有資料都保持原始形式。存儲所有資料,并且僅在分析時再進行轉換。資料倉庫就是資料通常從事務系統中提取。

在将資料加載到資料倉庫之前,會對資料進行清理與轉換。在資料抓取中資料湖就是捕獲半結構化和非結構化資料。而資料倉庫則是捕獲結構化資料并将其按模式組織。

資料湖的目的就是資料湖非常适合深入分析的非結構化資料。資料科學家可能會用具有預測模組化和統計分析等功能的進階分析工具。而資料倉庫就是資料倉庫非常适用于月度報告等操作用途,因為它具有高度結構化。

在架構中資料湖通常,在存儲資料之後定義架構。使用較少的初始工作并提供更大的靈活性。在資料倉庫中存儲資料之前定義架構。

2、資料倉庫、資料集市與資料湖的對比

Pentaho首席技術官James Dixon創造了“資料湖”一詞。它把資料集市描述成一瓶水(清洗過的,包裝過的和結構化易于去使用的)。資料湖更像是在自然狀态下的水。資料流從源系統流向這個湖。使用者可以在資料湖裡校驗,取樣或完全的使用資料。

資料倉庫開發期間,大量的時間花費在分析資料源,了解商業處理和描述資料。結果就是為報表設計高結構化的資料模型。這一過程大部分的工作就是來決定資料應不應該導入資料倉庫。通常情況下,如果資料不能滿足指定的問題,就不會導入到資料倉庫。這麼做是為了簡化資料模型和節省資料存儲空間。

相反,資料湖保留所有的資料。不僅僅是目前正在使用的資料,甚至不被用到的資料也會導進來。資料會一直被儲存所有我們可以回到任何時間點來做分析。

資料倉庫主要存儲來自營運系統的大量資料,而資料湖則存儲來自更多來源的資料,包括來自企業的營運系統和其他來源的各種原始資料資産集。

由于資料湖中的資料可能不準确,并且可能來自企業營運系統之外的來源,是以不是很适合普通的業務分析使用者;資料湖更适合資料科學家和其他資料分析專家。

對于資料倉庫與資料湖的不同之處,可以想象一下倉庫和湖泊的差別:倉庫存儲着來自特定來源的貨物,而湖泊的水來自河流、溪流和其他來源,并且是原始資料。

3、關系型資料庫vs.資料倉庫和資料湖

資料倉庫、資料湖與關系資料庫系統之間的主要差別在于,關系資料庫用于存儲和整理來自單個來源(例如事務系統)的結構化資料,而資料倉庫則用于存儲來自多個來源的結構化資料。資料湖的不同之處在于它可存儲非結構化、半結構化和結構化資料。

關系資料庫建立起來相對簡單,可用于存儲和整理實時資料,例如交易資料等。關系資料庫的缺點是它們不支援非結構化資料庫資料或現在不斷生成的大量資料。這使得我們隻能在資料倉庫與資料湖間做出選擇。盡管如此,很多企業仍然繼續依賴關系資料庫來完成營運資料分析或趨勢分析等任務。

繼續閱讀