天天看點

資料倉庫企業最佳實踐系列之資料倉庫、資料集市、資料湖等

作者:程式員果汁兒

目錄:

1、區分資料倉庫,資料集市,資料湖,資料中台

2、相關面試題

1、區分資料倉庫、資料集市、資料湖、資料中台

資料倉庫

資料倉庫是一個面向主題的、內建的、相對穩定的、反映曆史變化的資料集合,是為企業所有級别的決策制定過程,提供所有類型資料支援的戰略集合。它出于分析性報告和決策支援的目的而建立的。

資料倉庫的特點

面向主題

而資料倉庫則是面向主題的,它對應某一宏觀分析領域所涉及的分析對象。

內建性

根據決策分析的要求,将分散于各處的源資料進行抽取、篩選、清理、綜合等工作,最終內建到資料倉庫中。

穩定性

資料的相對穩定性,資料倉庫中的資料隻進行新增,沒有更新操作、删除操作處理。

時變性

不斷擷取新的資料,從這些資料中反映出曆史的變化

資料集市

資料集市可以分為兩種:

一種是獨立資料集市,這類資料集市有自己的源資料庫和ETL架構;另一種是非獨立資料集市,這種資料集市沒有自己的源系統,它的資料來自資料倉庫。當使用者或者應用程式不需要/不必要/不允許用到整個資料倉庫的資料時,非獨立資料集市就可以簡單為使用者提供一個資料倉庫的子集。

資料集市是一個結構概念,它是企業級資料倉庫的一個子集,主要面向部門級業務,并且隻面向某個特定的主題。

應用場景:資料集市是數倉之上更聚焦的業務主題合集,更偏向于應對業務資料快速高效應用的需求,一般用于商業智能系統中探索式和互動式資料分析應用

資料倉庫企業最佳實踐系列之資料倉庫、資料集市、資料湖等

資料湖

資料湖是一個存儲企業的各種各樣原始資料的大型倉庫,其中的資料可供存取、處理、分析及傳輸。

資料湖從企業的多個資料源擷取原始資料,并且針對不同的目的,同一份原始資料還可能有多種滿足特定内部模型格式的資料副本。是以,資料湖中被處理的資料可能是任意類型的資訊,從結構化資料到完全非結構化資料。

資料湖中的資料會不斷的積累、演化。是以,對于資料管理能力也會要求很高,至少應該包含以下資料管理能力:資料源、資料連接配接、資料格式、資料schema(庫/表/列/行)。同時,資料湖是單個企業/組織中統一的資料存放場所,是以,還需要具有一定的權限管理能力。

與數倉的差別:

資料湖中對于業務系統中的資料都會存儲一份“一模一樣”的完整拷貝。與資料倉庫不同的地方在于,資料湖中必須要儲存一份原始資料,無論是資料格式、資料模式、資料内容都不應該被修改。在這方面,資料湖強調的是對于業務資料“原汁原味”的儲存。同時,資料湖應該能夠存儲任意類型/格式的資料。

資料倉庫企業最佳實踐系列之資料倉庫、資料集市、資料湖等

資料中台

資料中台是指通過企業内外部多源異構的資料采集、治理、模組化、分析,應用,使資料對内優化管理提高業務,對外可以資料合作價值釋放,成為企業資料資産管理中樞。資料中台建立後,會形成資料API,為企業和客戶提供高效各種資料服務。

資料倉庫企業最佳實踐系列之資料倉庫、資料集市、資料湖等

3、相關面試題

你是怎麼了解資料倉庫的?

首先介紹資料倉庫的概念,然後結合自己的業務整合資料倉庫的特點來說明,最後說使用資料倉庫解決了什麼問題。作為了現在企業資料支援和資料分析不可缺少的重要環節。

繼續閱讀