天天看點

胖子哥的大資料之路(三)- 資料倉庫的需求分析該怎麼做

一、引言

  基于大資料技術建構資料倉庫平台,源于大資料技術本身的不成熟和普及度問題,以及輔助工具的缺失,注定了其實施過程與傳統資料倉庫的差異性,和更大的實施難度。本文針對大資料技術應用與資料倉庫類項目需求分析階段,需要完成的主要工作基于使用者需求分析說明書的文檔結構進行目錄式展現。如需了解更深層的細節,可以做專項技術交流和咨詢服務。

一、項目範圍的界定

  沒有明确項目邊界的項目是一個不可控的項目,如果項目規劃階段就沒有界定明确的項目範圍,項目實施過程過程中必将陷入萬劫不複的境地,慎重慎重。基于大資料基于的資料倉庫項目,面臨技術和人員等方面的問題,主要包括下面幾個方面:

(1)大資料基礎平台的成熟度尚不完善:主要是指基于hive+hadoop技術的缺陷,需要技術在逐漸的完善中;

(2)大資料輔助工具化的缺失:主要針對資料定義,資料處理以及資料可視化管理工具的欠缺;

(3)大資料開發和管理人員技術能力的不成熟:熟悉大資料相關平台管理和開發技術的人員的不足和技術層次參差不齊;

  正是基于以上原因的考慮,導緻大資料環境下的資料倉庫的實施相對于成熟的傳統關系型資料庫模式,将會面臨更大的壓力和更多的需要考慮的問題。項目邊界的界定主要需要考慮一下問題:

(1)業務邊界:都有哪些業務系統的資料需要接入到資料倉庫平台。

(2)資料邊界:都有哪些業務資料需要接入資料倉庫平台,具體的包括哪些表,表結構如何,表間關系如何(差別于傳統模式)。

(3)功能邊界:提供哪些功能,不提供哪些功能,必須明确界定,該部分詳見需求分析;

二、關鍵業務流程分析

 業務流程主要考慮包括系統間資料互動的流程、傳輸模式和針對大資料倉庫本身涉及相關資料處理的流程兩大部分。系統間的資料互動流程和模式,決定了你的資料倉庫平台的架構和設計,是以必須進行專項分析。資料倉庫本身需要考慮的問題包括以下幾個方面,在此制作目錄結構的展示:

2.1 曆史資料導入流程

2.2 增量資料導入流程

2.3 資料完整性校驗流程

2.4 資料批量導出流程

2.5 資料批量查詢流程

三、功能性需求-隻做目錄結構的展示

3.1.曆史資料導入

3.1.1 xx系統資料

3.1.1.1 資料清單... 3

3.1.1.2 關聯規則... 3

3.1.1.3 界面... 3

3.1.1.4 輸入輸出... 3

3.1.1.5 處理邏輯... 3

3.1.1.6 異常處理... 3

3.2 增量資料導入

3.3 資料校驗

3.4 資料導出

3.5 資料查詢

四、非功能性需求

4.1 性能

4.2 安全性

4.3 可用性

...

五、接口需求

5.1 資料查詢接口

5.2 批量任務管理接口

5.3 資料導出接口

六、叢集需求

  大資料技術自身的特點,決定項目的實施,必須考慮單獨的開發環境和生産環境,否則在後續的項目實施過程中,必将面測試不充分和性能無法測試的窘境,是以前期需求分析階段,必須根據資料規模和性能需求,建構單獨的開發環境和生産環境。

6.1開發環境

6.1.1 查詢伺服器

6.1.2 命名伺服器

6.1.3 資料伺服器

6.2 生産環境

6.2.1 查詢伺服器

6.2.2 命名伺服器

6.2.3 資料伺服器

七、其他

八、寫在後面的化

  其實公共資料平台的産品化設計的思想一直影響着我的思維模式,作為資料倉庫,其實更多的是考慮規範的應用接口,工具化,但是現實情況确實逼良為娼,無奈之舉。實施過程中即要考慮應用的開發,同時還需要考慮工具化的提煉,也許這才是大資料落地實施真正的難度。提供統一的資料資料導入工具,資料可視化工具、資料校驗工具、資料導出工具和公共的資料查詢接口服務管理工具才是大資料作為資料倉庫發展的方向。也許這就是探索者的苦惱吧。未完待續....

繼續閱讀