天天看點

企業大資料平台如何搭建?

大資料

這個詞出現之前,我們對日常資料的這種處理和分析,常常使用的一些類

似SQL server

MySQL Oracle

等等這些關系資料庫,傳統的這些資料庫處理T級别資料量已經是這些資料庫的極限,面對這種P級和E級的資料量,基本上是無能為力。

  一直到2005年,提供大資料基礎能力的Hadoop項目出來,從技術層面上搭建了一個對非結構化和複雜資料快速可靠分析,變為現實的一個技術平台,從這個時候開始,大資料才成為網際網路資訊科技裡高頻的熱詞;

  

2.什麼是大資料,大資料有哪些特征

  不管我們是不是大資料的專業人士,在這個資訊時代,我們都要了解一些大資料的概念,小到店家,大到國家都在講大資料,不過真正搞清楚什麼是大資料的人,還不是太多;

  對于大資料的概念,我們引用世界著名咨詢公司麥肯錫對它的描述:

  大資料是什麼?

  麥肯錫的定義:“一種規模大到在擷取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有4V特征”

  4V是什麼?

  Volume海量的規模;

  Velocity快速的流轉

  Variety多樣的類型

  Value低密度的價值

二.怎樣制定企業的大資料戰略

  戰略是我們工作的指導,一定有正确的戰略才能做戰術上的執行,戰略錯了,那麼一切戰術都是等于0,這裡總結了大資料的6大戰略;

1.決策戰略

  先了解所在企業的背景狀況:比如企業是民企、國企還是上市公司,規模有多大,有多少員工,大資料僅僅是錦上添花還是已經具體的發揮了它的價值;在決策企業是否上大資料項目的時候,以及投入多少的問題上,這些問題都需要考慮清楚的;

2.時機戰略

  就是企業什麼時候開始投入大資料建設

3.人才戰略 4.選型戰略

  是自建IDC資料中心、自建私有雲,還是選擇阿裡雲(騰訊雲等等)共有雲這個平台

5.平台戰略

  就是我們先選擇搭建一個平台還是先實施一個應用的問題。

  一個原則:離錢越近,越要早做;

6.管理戰略

  關于資料是否可再生的問題:就是如何采集資料、如何存儲資料、資料是怎樣應用的,資料安全,使用者隐私安全問題的保障;

三.企業如何進行大資料平台建設

  無論從幫助企業營銷還是提高效率來看,節約企業成本這個角度來看,大資料有非常大的價值,大資料做好了,可以推動企業的業務突飛猛進的增長;要實作這個大資料的價值,真正讓大資料為企業創造貢獻,那我們首先要積累有大資料,把日常業務和使用者的行為資料收集起來,我們前面說過,有些資料是可再生資源,但更多的是不可再生資源,這就需要我們管理好我們的資料資産,去搭建一個資料平台,負責資料的采集,規整、運算、存儲、應用、展現等等;

1.大資料平台是由三個平台加一個服務組成的 (1)工具平台,又包括

  -運維平台

  -資料采集平台

(2)大資料倉庫基礎平台 (3)大資料門戶,又包括

  -大資料分析平台

  -産品應用平台

(4)服務

  運維平台主要負責大資料平台的業務排程、任務監控、中繼資料管理、權限管理等等,主要由圖中所示的系統組成的;二個是資料采集平台,主要負責把資料采集到大資料倉庫平台當中,企業這種大資料來源,主要從三個方面去擷取資料,從業務系統、日志采集系統、外部資料來源采集,每一個方面的來源又包含幾個途徑,如圖所示;

  大資料基礎平台,傳統的也叫大資料倉庫平台,這部分是整個大資料平台的核心;

  下面是大資料門戶,是內建資料成果一體化的平台,包括大資料分析平台,和大資料應用平台;大資料門戶,作為整個大資料的視窗,所有的資料研究成果,都會展現在這個資料門戶當中,這樣就極大的友善了公司職能人員使用資料;

  使用者服務:使用資料的人主要包括管理人員、分析人員、營運人員、産品經理、技術工程師還有企業投資的相關方,或公司對外的資料服務,我們是通過API接口展現出來;

2.如何建構大資料基礎平台

  大資料基礎平台,是整個大資料平台的核心,是企業大資料加工、計算、存儲的場所,原本非常淩亂的各種各樣來源的資料,進入基礎平台之後,都會按照一定的标準,一定的規範化進行存儲,處理起來,大資料基礎平台有三個核心技術點,第一個是主題模型,第二個是層次模型,第三個是計算模型,下面會給大家一些簡單的介紹;

(1)主題模型

  主體模型詳細附件圖表

  主體模型設計的注意事項:

  大主題可以有若幹的子主題構成

  主題之間不要有交叉,相同特征的要放在同一個主題當中;

  主體要充分的覆寫,能夠覆寫到企業所有的業務,能夠支援所有的應用和分析的需求

  (a)具備完整性   (b)主體的獨立性   (c)具備層次性 (2)層次模型

  層次模型通常由4個層次組成,如下圖:

  (a)ODL層(操作資料層)

  功能是存放從業務系統之間抽取過來的資料,資料從資料結構,從資料這種邏輯關系上面,都與業務系統基本上是保持一緻的,這裡實作了透視字段一些固化的處理,像會員注冊,注冊時間,還有一些少量的基本的資料清洗,比如髒資料的一些過濾,次元的一些處理等等,最終生成了這種增量的資料

  (b)BDL層(基礎資料層)

  該層的主要功能,是基于主題域的劃分來完成資料整合的,提供統一的資料的基礎平台,在這個層級當中,我們會完成資料的清洗、定義的分類等等的一些功能;

  (c)IDL層(接口資料層)

  面向應用的,統一的應用接口通路平台,客戶統一視圖都在這一層級實作,該層級的重點就在于實作跨主題域的這種資料的關聯計算;在實踐當中,會涉及兩類模型,一類是為了擷取資料更容易,我們會制造一些反規範化的主題模型,我們常常看到的這種寬表模型,另一類就是為了我們實作快速的查詢,分析而建立起來的這種比較規範式的多元分析模型,它是由多個維表進行組成的;

  (d)ADL層(應用資料層)

  提供差異化的資料服務,以滿足業務方的需求,這一層級我們可以實作一些報表,資料挖掘、産品應用等等需求;

  在傳統的資料庫時代,ADL層主要在RAC(ORACLE真正應用叢集)中實作的,在大資料時代裡,我們通常會用hbase這一層的資料的存儲;

  我們在工作中,為了降低次元大資料平台的負責度,我們通常把4層壓縮到3層,我們通常把ODL層和BDL層進行合并,原來分别在這兩層當中實作的一些事情,我們合并到一層裡面去實作;如下圖所示:

  3.如何建構大資料門戶

  企業大資料門戶,是企業應用的內建一體化的平台,大資料門戶,作為企業服務的視窗,除了資料研究成果外,都會展現在大資料門戶中,進而極大的友善了我們企業個隻能人員使用、利用這個資料;

  企業大資料門戶包含:

  主要由精準營銷、個性化推薦等等

  負責業務資料的可視化展現,智能報表,臨時取數的分析,還有多元資料分析的一些模型,比如使用者畫像、業務關鍵名額監控,還有資料挖掘模型的一些監控等等。

雲伺服器ECS位址:阿裡雲·雲小站