基礎知識篇
什麼是資料倉庫
資料倉庫誕生原因?
1.曆史資料積存
2.企業資料分析需要
曆史資料積存:曆史資料使用頻率低,堆積在業務庫中,導緻性能下降;
企業資料分析需要:各個部門自己建立獨立的資料抽取系統,導緻資料不一緻。
簡單的說,在普通的資料庫(操作型資料庫)中,每時每刻都在産生資料,而對于這樣的資料往往曆史資料不重要,以目前的操作資料為重點,以項目為主。傳統資料庫記憶體較小,經常需要删除資料,保留最新的資料。現在的資料時代需要對資料進行挖掘分析,進而提供政策支援,也就應運而生資料倉庫,資料倉庫的資料來源于資料庫,且多為多個資料庫,那麼不同的資料庫中面臨着資料不一緻等問題,那麼**抽取過程(ETL)**就變得尤為重要了。
資料倉庫(Data Warehouse,DW)定義
由資料倉庫之父比爾·恩門(Bill Inmon)提出,*資料倉庫是一個面向主題的、內建的、非易失的且随時間變化的資料集合,主要用于組織積累的曆史資料,*并使用分析方法(OLAP、資料分析)進行分析整理,進而輔助決策,為管理者、企業系統提供資料支援,建構商業智能
資料倉庫特點
面向主題:為資料分析提供服務,根據主題将原始資料集合在一起
內建:原始資料來源于不同資料源,要整合成最終資料,需要經過抽取、清洗、轉換的過程
非易失:儲存的資料是一系列曆史快照,不允許被修改,隻允許通過工具進行查詢、分析
時變性:數倉會定期接收、內建新的資料,進而反映出資料的最新變化
ps:這裡的時變并不像操作型資料庫(業務更新)時刻更新,DW定期抽取存入資料
資料倉庫 VS 資料庫
資料庫面向事務設計,屬于OLTP(線上事務處理)系統,主要操作是随機讀寫;在設計時盡 量避免備援,常采用符合範式規範來設計資料倉庫是面向主題設計的,屬于OLAP(線上分析處理)系統,主要操作是批量讀寫;關注資料整合,以及分析、處理性能;會有意引入備援,采用反範式方式設計。
總結
用簡單的話講:資料倉庫的資料來源于若幹個資料庫,為分析主題而存在。
例如我有一個銷售資料庫,裡面有使用者資訊表,有商品資訊表,有銷售訂單表,有商家資訊表等等,對于這樣的資料庫關心的就是訂單業務,沒産生一個業務,對應的表格就會增加一條記錄。
而對于資料倉庫而言,倘若關心的主題是銷售量,那麼DW就着重于銷售量這個度量,而其他的次元都是觀察這個度量的次元。例如:某年某月在某地區某商品的銷售量(并不是單個訂單記錄(業務)可以完成的)
這就是業務(事務)和主題的差別。
因為需求不一樣,那麼資料的存取方式自然就不一樣了,這是後話。
下一篇:資料倉庫與資料挖掘 2
參考
資料倉庫
[0] 陳志泊 主編. 資料倉庫與資料挖掘(第二版). 清華大學出版社,2019
[1] 陳立偉著,資料倉庫與資料挖掘教程,清華大學出版社,2006
[2] 林宇編著. 資料倉庫原理與實踐,人民郵電出版社,2003。
[3] 彭木根著 資料倉庫技術與實作,電子工業出版社,2002.6。
[4] [加]韓家炜、[加]坎伯,範明等譯,資料挖掘概念與技術,機械工業出版社,2005。
[5] 張雲濤、龔玲著,資料挖掘原理與技術,電子工業出版社,2003。