目錄:
1、區分資料倉庫,資料集市,資料湖,資料中台
2、相關面試題
1、區分資料倉庫、資料集市、資料湖、資料中台
資料倉庫
資料倉庫是一個面向主題的、內建的、相對穩定的、反映曆史變化的資料集合,是為企業所有級别的決策制定過程,提供所有類型資料支援的戰略集合。它出于分析性報告和決策支援的目的而建立的。
資料倉庫的特點
面向主題
而資料倉庫則是面向主題的,它對應某一宏觀分析領域所涉及的分析對象。
內建性
根據決策分析的要求,将分散于各處的源資料進行抽取、篩選、清理、綜合等工作,最終內建到資料倉庫中。
穩定性
資料的相對穩定性,資料倉庫中的資料隻進行新增,沒有更新操作、删除操作處理。
時變性
不斷擷取新的資料,從這些資料中反映出曆史的變化
資料集市
資料集市可以分為兩種:
一種是獨立資料集市,這類資料集市有自己的源資料庫和ETL架構;另一種是非獨立資料集市,這種資料集市沒有自己的源系統,它的資料來自資料倉庫。當使用者或者應用程式不需要/不必要/不允許用到整個資料倉庫的資料時,非獨立資料集市就可以簡單為使用者提供一個資料倉庫的子集。
資料集市是一個結構概念,它是企業級資料倉庫的一個子集,主要面向部門級業務,并且隻面向某個特定的主題。
應用場景:資料集市是數倉之上更聚焦的業務主題合集,更偏向于應對業務資料快速高效應用的需求,一般用于商業智能系統中探索式和互動式資料分析應用
資料湖
資料湖是一個存儲企業的各種各樣原始資料的大型倉庫,其中的資料可供存取、處理、分析及傳輸。
資料湖從企業的多個資料源擷取原始資料,并且針對不同的目的,同一份原始資料還可能有多種滿足特定内部模型格式的資料副本。是以,資料湖中被處理的資料可能是任意類型的資訊,從結構化資料到完全非結構化資料。
資料湖中的資料會不斷的積累、演化。是以,對于資料管理能力也會要求很高,至少應該包含以下資料管理能力:資料源、資料連接配接、資料格式、資料schema(庫/表/列/行)。同時,資料湖是單個企業/組織中統一的資料存放場所,是以,還需要具有一定的權限管理能力。
與數倉的差別:
資料湖中對于業務系統中的資料都會存儲一份“一模一樣”的完整拷貝。與資料倉庫不同的地方在于,資料湖中必須要儲存一份原始資料,無論是資料格式、資料模式、資料内容都不應該被修改。在這方面,資料湖強調的是對于業務資料“原汁原味”的儲存。同時,資料湖應該能夠存儲任意類型/格式的資料。
資料中台
資料中台是指通過企業内外部多源異構的資料采集、治理、模組化、分析,應用,使資料對内優化管理提高業務,對外可以資料合作價值釋放,成為企業資料資産管理中樞。資料中台建立後,會形成資料API,為企業和客戶提供高效各種資料服務。
3、相關面試題
你是怎麼了解資料倉庫的?
首先介紹資料倉庫的概念,然後結合自己的業務整合資料倉庫的特點來說明,最後說使用資料倉庫解決了什麼問題。作為了現在企業資料支援和資料分析不可缺少的重要環節。