天天看點

大資料和傳統BI

大資料和傳統BI

對于傳統企業内部,更多的應該是使用了大資料技術的傳統bi平台,或者是融合了傳統bi+大資料的混合平台,而不能單純說是大資料平台。在談大資料平台的時候,一味去否定傳統bi是不合适的。

在沒有和網際網路打通的傳統企業内部,更多接觸的仍然是結構化資料,優先要解決的是圍繞企業核心價值鍊的資料模組化和企業戰略,各業務域kpi體系的建立,決策支援和分析這些内容。在整個資料模組化和分析過程中,還要考慮去解決資料不一緻性,重複等問題,建立資料管控和治理體系。36大資料(http://www.36dsj.com/)

傳統bi平台在發展過程中會遇到問題和瓶頸,使用傳統的技術架構無法解決,需要我們在傳統bi技術架構的建構中引入大資料相關技術和工具,從這意義上更多應該叫使用了大資料技術的傳統bi平台。36大資料(http://www.36dsj.com/)

使用了大資料技術的傳統bi平台

在資料存儲和查詢效率層面,傳統bi遇到瓶頸,可以看到在大量的上千萬即上億資料量的結構化資料表中,要進行查詢統計分析輸出kpi名額性能下降非常明顯。為了解決查詢效率問題,有兩個思路,一個是引入了mpp資料庫來解決,一個則是引入hadoop平台進行存儲,雖然是結構化資料但是仍然引入hadoop平台,重點是解決分布式存儲和查詢性能問題。36大資料(http://www.36dsj.com/)

其次,雖然傳統企業以結構化資料為主,但是仍然出現對大資料量的非結構化資料的采集和處理,這個時候我們可能引入了hadoop平台,将資料采集,清理存儲後最終還是再導入我們的結構化資料倉庫。可以看到在這個過程中大資料技術解決了對非結構化資料的處理和整合問題。36大資料(http://www.36dsj.com/)

融合傳統bi能力的大資料平台

對于原來沒有規劃建設bi系統的企業,在建構bi系統的時候更多考慮的就是直接建構大資料平台同時完全融合傳統bi應該具備的能力。即既保留了傳統bi,又實作了遠期對大資料平台和應用的擴充能力。

資料采集層-》資料存儲層-》資料處理層-》資料整合層-》資料分析層-》資料展現層

資料采集:大資料在傳統etl基礎上增加了對hdfs,非結構化資料,流資料,網際網路資料的支援能力

資料存儲:增加了hdfs,hbase等資料存儲方式

資料處理:傳統bi在etl過程中可以完成清洗,大資料平台是存采集不處理,處理用單獨定制腳本。

資料整合:整合了結構化+非結構化資料,提供統一資料開放接口

資料分析:hive+impala+spark,大批量和即席互動查詢能力并存

資料展現:傳統的bi報表功能仍然适用,也可以引入大資料可視化技術

可以看到要融合傳統bi能力,則資料整合層需要能夠整合結構化資料和非結構化資料,同時提供統一的大資料開放能力服務接口。盡量讓前端報表通過大資料服務接口擷取資料以隔離底層大資料平台的資料源。即資料展現層和資料整合層通過服務層進行解耦和隔離。

如果企業已有傳統bi平台,那麼底層的bi平台可以共存,即可以将底層bi平台的ods庫或edw資料導入到大資料平台進行存儲和整合。大資料平台存儲一定是混合存儲模式,即有些通過hadoop平台處理後的中間結果資料我們仍然導入到結構化資料庫進行存儲,遵從傳統bi資料模組化技術建構星型模型,友善後續對資料進行次元分析和上鑽下鑽。對于self service bi,我們仍然開放hadoop平台原始資料接口能力。

一開始就建構大資料目标平台

如果企業在建構平台的時候,一開始目标就很明确是大資料類分析和應用,如采集海量的網際網路資料進行某行業的客戶行為分析,使用者畫像,同時結合企業内部經營資料進行針對性營銷的輔助決策。那麼一開始建構就會以hadoop平台為主,同時相容能夠采集企業已有的結構化資料。

這類平台在建構過程中可以看到不會是傳統bi資料模組化和分析那套方法,而更多是新的大資料分析和挖掘技術,則完全可能是以impala+hive+hdfs為主線,以tableau,qlic view為前段展現,通過r語言或knime進行資料挖掘和分析等。即脫離傳統bi,大資料整套架構仍然是完整的。但是弱化了傳統bi中的資料模組化,資料品質管理,資料治理等方面的能力。

本文作者:人月神話

來源:51cto