天天看點

什麼是 BI(Business Intelligence)

轉載自:http://www.cnblogs.com/jiesin/archive/2008/06/23/1227694.html

談談對BI的了解,從BI的定義、基本技術、專業名詞、執行個體應用及 擴充等方面進行重新描述,鞏固對BI的了解。

一、BI的定義

BI是Business Intelligence的英文縮寫,中文解釋為商務智能,用來幫助企業更好地利用資料提高決策品質的技術集合,是從大量的資料中鑽取資訊與知識的過程。 簡單講就是業務、資料、資料價值應用的過程。用圖解的方式可以了解為下圖:

什麼是 BI(Business Intelligence)

圖(1)

這樣不難看出,傳統的交易系統完成的是Business到Data的過程,而BI要做的事情是在Data的基礎上,讓Data産生價值,這個産生價 值的過程就是Business Intelligence analyse的過程。

如何實作Business Intelligence analyse的過程,從技術角度來說,是一個複雜的技術集合,它包含ETL、DW、OLAP、DM等多環節,基本過程可用下圖描述。

什麼是 BI(Business Intelligence)

圖(2)

上圖流程,簡單的說就是把交易系統已經發生過的資料,通過ETL工具抽取到主題明确的資料倉庫中,OLAP後生成Cube或報表,透過Portal 展現給使用者,使用者利用這些經過分類(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的資料,支援業務決策。

說明:

BI不能産生決策,而是利用BI過程處理後的資料來支援決策。哪麼BI所謂的智能到底是什麼呢?(理清這個概念,有助于對BI的應 用。)BI最終展現給使用者的資訊就是報表或圖視,但它不同于傳統的靜态報表或圖視,它颠覆了傳統報表或圖視的提供與閱讀的方式,産生的資料集合就象玩具 “魔方”一樣,可以任意快速的旋轉組合報表或圖視,有力的保障了使用者分析資料時操作的簡單性、報表或圖視直覺性及思維的連慣性。

我想這是大家熱衷于BI的根本原因。

二、BI的誕生

随着IT技術的進步,傳統的業務交易系統有了長足的發展,已經實作了業務資訊化,每一筆業務資料都記錄在資料庫中,星轉鬥移,累積了以TB為計量單 位的業務資料記錄。也許你會問:這麼多資料,占用了很多儲存設備,耗費存儲成本,卻又不經常通路,留着它有什麼用處?可以給你肯定的回答,留着這些曆史數 據意義巨大,挖掘業務的規律、支援決策。

典型的案例有“尿片和啤酒”的故事, 尿片和啤酒本來是兩樣不相幹的東西,可是,有人就發現,星期五在超市裡購物的,購買尿片的年輕父親中有30%~40%的人同時購買啤酒。原來,星期五年輕 的父親購買尿片時,還會為自己捎帶買啤酒,因為,星期五是各家電視台轉播橄榄球賽的時間,于是,超市老闆們就把尿片和啤酒捆綁銷售獲得了巨大成功。

這 個故事成了一個利用資料挖掘商業價值最大化的神話。 由此看來,非常不關聯的兩樣東西,通過海量的資訊資料處理,可以挖掘出它們之間潛在的關聯,将這種關聯商業化,就會得到意想不到的新業務或新的商業模式。

到 底該怎樣把這些占據大量存儲空間的資料的價值挖掘出來,讓這些資料從成本的消耗者變成利潤的促進者呢?新的資料分析技術由此誕生了,完成了“資料”到“數 據價值”轉換的環節,同時給這項技術起了一個響亮而又神密的名字“BI”(Business Intelligence)

三、基本技術

BI(Business Intelligence) 是一種運用了資料倉庫、線上分析和資料挖掘等技術來處理和分析資料的嶄新技術,目的是為企業決策者提供決策支援。這似乎是BI的官方定義,也是廣大BI玩 家一成不變的宗旨,哪麼BI技術涉及了哪些方面呢?從圖(2)中,我們不難看出其核心技術中ETL、DW及OLAP。或者說是“資料處理技術”與“資料展 現技術”更加容易了解。

為什麼要在操作型資料庫和 OLAP 之間加一層“資料倉庫”呢?

說一千道一萬都計算機資源與效能惹的 禍,操作型資料庫以快速響應業務為主要目标,而OLAP的時候要占用大量的硬體資源,在OLAP的時候,業務操作很難快速響應,無法保證業務的順利進行, 從業務、資料、資料的價值的邏輯來看,沒有業務就談不上OLAP;零星分散的資料一般存在有多個應用,對應多個業務操作型資料庫,通路效能極其低下。綜合 上述資源與效能的問題,最高效的方法就是将資料先整合到資料倉庫中,而 由OLAP應用統一從資料倉庫裡取數,以解決快速響應業務與OLAP的沖突。

但 是,多了這麼一層,不管ROLAP還是MOLAP都無法檢視實時資料,這并不影響BI的應用,90%的BI應用都不要求實時性,允許資料有滞後,這是決策 支援系統的應用特點,這個滞後區間就是資料抽取工具工作及OLAP的時間。

四、資料處理

(1)ODS,(Operational Data Store)是資料倉庫體系結構中的一個可選部分,ODS具備資料倉庫的部分特征和OLTP系統的部分特征,它是“面向主題的、內建的、目前或接近目前 的、不斷變化的”資料。

一般在帶有ODS的系統體系結構中,ODS都設計都有如下特點:

1) 在業務系統和資料倉庫之間的資料過渡離層。

如果業務資料來源 比較複雜,一般采用構造ODS的方法來實作收集目前需要處理的資料。如下述資料來源:

a、業務資料庫種類繁多。業務交易系統使用了不同種的資料 庫,如DB2、Informix、Oracle、SQL server、文本等。

b、不同的應用系統、不同的地理位置。

c、訂閱資料源。

d、 批量還原非傳統資料庫資料。

... ...等等。用于存放從業務系統直接抽取出來的資料,這些資料從資料結構、資料之間的邏輯關系上都與業務系統基本保持一緻。

2) 儲存目前或接近目前的細節資料,以供查詢或ETL檢錯使用。

3) 資料存儲周期性。ODS中存儲的資料都是臨時的,每次ETL之前都要清空ODS中存儲的資料。

(2)ETL,(Extract Transform Load)操作型業務資料庫(DB)到資料倉庫(DW)的過程稱之為ETL,它實作資料的抽取,轉換及裝載工作。

抽取:将資料從各種原始的業務系統中讀取出來。

轉換:按照預先設計好的規則将抽取得資料進行轉換、清洗,以及處理一些備援、歧義的資料, 使本來異構的資料格式能統一起來。

裝載:将轉換完的資料按計劃增量或全部的導入到資料倉庫中。

在技術上主要涉及增量、轉換、排程和監 控等幾個方面的處理。

現在列舉一個簡單的執行個體,用來說明ETL。

如下表所示,是來自于四個地區的Item銷售記錄。四個地區依次是

什麼是 BI(Business Intelligence)

圖(3)

不管使用什麼方法或工具,使上述四表的資料結構變成下表所描述的結構,并填充資料,這個過程就是一個ETL的過程。

什麼是 BI(Business Intelligence)

圖(4)

(3)DW, (Data Warehouse) 資料倉庫的官方定義是一個面向主題的(Subject Oriented)、內建的(Integrate)、相對穩定的(Non-Volatile)、反映曆史變化(Time Variant)的資料集合,用于支援管理決策。

資料倉庫的特點:

1)、面向主題。

2)、內建。

3)、非易失。

4)、時間軸。

資料庫與資料倉庫的 差別如下所述:

什麼是 BI(Business Intelligence)

圖(5)

(4)OLAP,(On-Line Analytical Processing)即聯機分析處理,是 BI的一種全新的資料封裝方式,直接産物是報表或Cube,是使分析人員、管理人員或執行人員能夠從多角度對資訊進行快速、一緻、互動地存取,進而獲得對 資料的更深入了解的一類軟體技術。

說到OLAP,不由的想起OLTP(聯機事務處理系統),現在來比較一下OLTP與OLAP的差別,如下所述:

什麼是 BI(Business Intelligence)

圖(6)

太理論化的東西還是少說,來看看資料表中資料是如何在立方體中表示的。

單獨察看一個Location的銷售資料,使用慣用的2-D平面資料 表,完全可以滿足所有的需求,如下圖所示:

什麼是 BI(Business Intelligence)

圖(7)

但,要是想從更多的Location的角度去分析資料,可以在2-D的平面資料的基礎上增加一個維,來表示Location的變化,如下圖所示:

什麼是 BI(Business Intelligence)

圖(8)

概念上講,也可以以3-D的資料立方體的形式表示這些資料,如下圖所示:

什麼是 BI(Business Intelligence)

圖(9)

假定再增加一個維,用來表示制造商的變化,哪應該如何表示資料了呢?我們按照上面的思路,可以表示成如下圖所示的資料結構,并稱之為4-D立方體。

什麼是 BI(Business Intelligence)

圖(10)

以此類推,可以把N-D資料立方體表示為(N-1)-D資料立方體的序列。這是OLAP的基本原理,至于其中使用了何種具體的算法,來計算與管理每 個“子方體”的,内容太多,不能再這裡啰嗦了...

說明:

資料立方本是對多元資料存儲的一種比喻,這種資料的實際實體存儲不同于它的邏輯 表示。它不限于3-D,而是N維的。

五、資料展現

資料查詢是最簡單的 BI 應用,輸出報表是BI最直接的産物,根據資料連接配接,加工過程及用途,應用模式大緻可以分為四種:格式報表;線上分析;資料可視化;資料挖掘。

1、格式報表:帶格式的資料集合,如:交叉表等。

2、線上分析:多元資料集合,如:Cube等。

3、資料可視化:資訊以盡可能多的形式展現出來,目的是使決策者通過圖形這種直覺的表現方式迅速獲得資訊中蘊藏的知識,如柱圖,儀表盤等。

4、資料挖掘:從大量的資料中,抽取出潛在的、有價值的知識(模型或規則)的過程。分析方法:

· 分類 (Classification)

· 估值(Estimation)

· 預言(Prediction)

· 相關性分組或關聯規則(Affinity grouping or association rules)

· 聚集(Clustering)

· 描述和可視化(Description and Visualization)

資料挖掘号稱能通過曆史資料的分析,預測客戶的行為,而事實上,客戶自己可能都不明确自己下一步要作什麼。是以,資料挖掘的結果,沒有人們想象中神 秘,它不可能是完全正确的。客戶的行為是與社會環境相關連的,是以資料挖掘本身也受社會背景的影響。

六、常用的BI 廠商和産品

ETL:Informatica, SQL Server Analysis Server

DW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;

OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM

Data Mining:IBM,SAS,SPSS

現在很多的資料庫提供商都開始綁定BI的開發元件到自己的資料庫産品中,他們都瞄準了這其中的肥肉,磨拳檫掌,各論長短。

七、BI在中國

中國擁有5000年的文化史,燦爛的檔案讓日常報表也非常具有凝聚力,交錯縱橫,裡外相嵌,格式詭異、規則古怪、資料集中而文名于世,讓無數報表工 具折腰。BI概念是從歐美引進的,現有的工具也多是歐美國家提供,中國是世界上報表最複雜的國家,報表設計風格與這些國家有明顯的差别,BI工具制作的報 表傾向于僅用一張報表說明一個問題,而中國的報表傾向于将盡可能多的問題集中在一張報表中,這種思路直接導緻了BI工具應用難度的提升。

繼續閱讀