天天看點

資料倉庫與資料挖掘 1基礎知識篇總結參考

基礎知識篇

什麼是資料倉庫

資料倉庫誕生原因?

1.曆史資料積存

2.企業資料分析需要

曆史資料積存:曆史資料使用頻率低,堆積在業務庫中,導緻性能下降;

企業資料分析需要:各個部門自己建立獨立的資料抽取系統,導緻資料不一緻。

簡單的說,在普通的資料庫(操作型資料庫)中,每時每刻都在産生資料,而對于這樣的資料往往曆史資料不重要,以目前的操作資料為重點,以項目為主。傳統資料庫記憶體較小,經常需要删除資料,保留最新的資料。現在的資料時代需要對資料進行挖掘分析,進而提供政策支援,也就應運而生資料倉庫,資料倉庫的資料來源于資料庫,且多為多個資料庫,那麼不同的資料庫中面臨着資料不一緻等問題,那麼**抽取過程(ETL)**就變得尤為重要了。

資料倉庫(Data Warehouse,DW)定義

由資料倉庫之父比爾·恩門(Bill Inmon)提出,*資料倉庫是一個面向主題的、內建的、非易失的且随時間變化的資料集合,主要用于組織積累的曆史資料,*并使用分析方法(OLAP、資料分析)進行分析整理,進而輔助決策,為管理者、企業系統提供資料支援,建構商業智能

資料倉庫特點

面向主題:為資料分析提供服務,根據主題将原始資料集合在一起
資料倉庫與資料挖掘 1基礎知識篇總結參考
內建:原始資料來源于不同資料源,要整合成最終資料,需要經過抽取、清洗、轉換的過程
資料倉庫與資料挖掘 1基礎知識篇總結參考
非易失:儲存的資料是一系列曆史快照,不允許被修改,隻允許通過工具進行查詢、分析
資料倉庫與資料挖掘 1基礎知識篇總結參考

時變性:數倉會定期接收、內建新的資料,進而反映出資料的最新變化

ps:這裡的時變并不像操作型資料庫(業務更新)時刻更新,DW定期抽取存入資料

資料倉庫 VS 資料庫

資料庫面向事務設計,屬于OLTP(線上事務處理)系統,主要操作是随機讀寫;在設計時盡 量避免備援,常采用符合範式規範來設計資料倉庫是面向主題設計的,屬于OLAP(線上分析處理)系統,主要操作是批量讀寫;關注資料整合,以及分析、處理性能;會有意引入備援,采用反範式方式設計。

資料倉庫與資料挖掘 1基礎知識篇總結參考

總結

用簡單的話講:資料倉庫的資料來源于若幹個資料庫,為分析主題而存在。

例如我有一個銷售資料庫,裡面有使用者資訊表,有商品資訊表,有銷售訂單表,有商家資訊表等等,對于這樣的資料庫關心的就是訂單業務,沒産生一個業務,對應的表格就會增加一條記錄。

而對于資料倉庫而言,倘若關心的主題是銷售量,那麼DW就着重于銷售量這個度量,而其他的次元都是觀察這個度量的次元。例如:某年某月在某地區某商品的銷售量(并不是單個訂單記錄(業務)可以完成的)

這就是業務(事務)和主題的差別。

因為需求不一樣,那麼資料的存取方式自然就不一樣了,這是後話。

下一篇:資料倉庫與資料挖掘 2

參考

資料倉庫

[0] 陳志泊 主編. 資料倉庫與資料挖掘(第二版). 清華大學出版社,2019

[1] 陳立偉著,資料倉庫與資料挖掘教程,清華大學出版社,2006

[2] 林宇編著. 資料倉庫原理與實踐,人民郵電出版社,2003。

[3] 彭木根著 資料倉庫技術與實作,電子工業出版社,2002.6。

[4] [加]韓家炜、[加]坎伯,範明等譯,資料挖掘概念與技術,機械工業出版社,2005。

[5] 張雲濤、龔玲著,資料挖掘原理與技術,電子工業出版社,2003。