天天看點

建構資料中台

建構資料中台

架構

建構資料中台

中台的本質是能力共享,就像任何程式員都了解代碼需要複用一樣。複用的代碼通過服務、jar、類等方式在項目中複用,在中台實踐過程中,複用的能力需要組織機構賦能,需要從組織層面認可并推廣中台能力,需要有一套标準、方法論引導企業内各個組織沉澱能力、共享能力、營運能力。

蘇甯資料中台

蘇甯資料中台是一個大項目群:

  • OLAP 是底層的加速、查詢引擎,底層支援 Druid、ES、PGCitus 叢集,類似 Presto,跟 Presto 不同的是 OLAP 會主動對資料進行 Cube 預加速。
  • 百川是名額平台層,讓使用者模組化、定義名額,對外提供名額查詢服務。百川主要支援的模組化方式是:星型模型。資料模組化自然離不開維表次元,UDMS 系統就是來定義、管理所有次元、維表,目前收錄了整個集團近 200 多個次元,對外提供次元、維表資訊服務。
  • 天工是類似 Tableau、Superset 的可視化報表設計平台,與這些 BI 軟體最大的不同點是,天工基于百川的名額、UDMS 的次元來制作報表,資料來源已經高度标準化、歸一化。目前商業報告分析工具:Cognos、阿裡 QuickBI 等,是将資料模組化、可視化設計能力放到一起,這是天工與它們的最大差別。
  • 慧眼,是統一報表門戶,所有的報表統一釋出到慧眼面向業務。慧眼最大的挑戰在于報表權限管控與自動比對,總共 4000 多張報表,使用者 2w 多,一張報表開放給8000+人員是很常見的。所有這一切靠人工維護,既容易出錯又不利于資料安全,也不能及時響應使用者需求,這些都是慧眼系統要解決的問題。
建構資料中台
建構資料中台
建構資料中台
建構資料中台
建構資料中台
建構資料中台

資料中台對一個企業,起着至關重要的作用。在資料中台這個稱謂成型之前,各個企業也都在用不同的方式來盡可能地利用資料産生價值。隻是在這個過程中,也不得不處理着資料帶來的各種問題,比如各個業務系統經年累月以煙囪架構形式存在而導緻的資料孤島、資料隔離、資料不一緻等等。資料中台對企業的真正意義是,讓傳統企業向科技企業更新,讓IT系統內建向大資料內建更新,讓工具/流程/管理向驅動業務營運更新。

在阿裡中台概念的引領下,很多企業也提出了自己的“中台戰略”。如把内部一些通用性技術平台、支撐系統打包在一起,稱之為技術中台;把一些大的業務服務系統,邏輯上集中起來稱之為業務中台;或幹脆把現有的資料倉庫、資料治理平台、資料運維平台整合稱之為資料中台;還有一種更簡單的方式,就是把以前内部IT支撐系統的背景直接改名,與資料相關的部分就叫資料中台,與業務耦合度較緊密的就叫業務中台。以上定義,各有各有道理,但有一點大家都有一緻的意見,就是建立中台的目的在于:減少備援,增加複用,快速響應使用者需求。

一般來說,資料中台是指企業利用大資料技術,對内外部海量資料統一進行采集、計算、存儲,并使用統一的資料規範進行管理,資料規範包括資料口徑、資料模型、中繼資料規範、參考資料标準、主資料标準、業務規則等。更進一步,廣義的資料中台,還包括企業長期積累下來與業務有較強關聯性的一些技術元件,如業務标簽,算法模型,資料産品等。資料中台的主要作用在于将企業内部所有資料統一處理形成标準化資料,挖掘出對企業最有價值的資料,建構企業資料資産庫,對内對外提供一緻的、高可用大資料服務。

一種理想的資料中台架構

企業建設資料中台的最終目标還是賦能業務,服務使用者。資料中台的建設也不應該隻是一個口号,一次運動,或一個項目,而是需要企業不斷去投入資源、疊代更新,通過資料中台的建設,驅動企業業務創新和發展。企業建設資料中台,可以通過合理規劃、複用内部現有已經完善的大資料處理工具來支撐建設,充分借鑒業界資料中台建設實踐,從核心需求出發,以某垂直業務的資料入手,打通資料采集、存儲、計算、治理、服務的工作全流程,逐漸擴充到全域資料的接入、加工和管理,建設起自有的資料中台。

建構資料中台

資料中台包括哪些内容,做哪些事情,圖2是筆者理想中的資料中台架構。共分為五個大的功能組成。

資料采集。為資料中台提供彙集資料的能力,應提供統一的資料擷取接入方式,資料來源包括内部資料和外部資料,資料類型應支援結構化和非結構化資料采集。傳統的ETL工具仍然可以複用,實作資料采集、轉換、加載等關鍵處理過程。采集方式上應能支援對周期性接口檔案的批量采集,對産生頻率高、實時性強的資料以資料流形式采集,針對企業外部網際網路資料,使用網頁爬蟲自動抓取的方式采集。

資料計算。為資料中台提供統一的大資料計算能力,針對不同大資料處理場景,所需提供的資料計算能力也不同,一般主要包括批量離線計算(如MapReduce)、記憶體計算(如Spark、Ignite)、線上流式計算(如Storm、Samza、Spark Streaming、S4)等。特别是人工智能技術的廣泛發展和應用,基于大資料對機器學習算法模型的訓練工具(如Mahout、Spark MLib、Caffe、Keras、TensorFlow)也可以歸為資料計算工具的類别。

資料存儲。資料中台中全域資料的存儲中心,按照不同的資料類型,可以采用圖2中一種或多種資料存儲系統的“混搭”架構。傳統資料倉庫(如DB2/ORACLE/Teradata)是最為成熟穩定的資料存儲方式,承載着及時性、準确性要求高的企業核心應用。分布式關系資料庫,也常簡稱為MPP資料庫,相較于傳統的關系型資料庫,具有高性能處理能力、高資料吞吐能力的優勢。NoSQL分布式資料庫屬于非關系型資料庫管理系統,在大資料簡單存取上具備關系型資料庫無法比拟的性能優勢。分布式檔案系統(HDFS)是目前最常見的大資料存儲方式,它具極高的成本效益,擴充性強。資料湖作為一種新的存儲大量複雜格式資料,避免企業資料孤島化的資料架構方案,可用來将不同結構的資料統一聚合和存儲。

資料治理。亦稱之為資料資産管理,指的是為了實作對企業中資料資産價值的擷取、管控、傳遞等目的,基于制定的資料規範,對資料資産所做的一系列管理活動。資料标準管理指對資料口徑、公共術語、參考資料、資料編碼等制定和實施标準化的管理活動。資料模型管理負責對系統中核心的邏輯模型、實體模型、資料庫表、字段、視圖等進行統一管控、促進其規範化。中繼資料管理的作用是統一管理所有業務系統中繼資料,包括業務中繼資料、技術中繼資料、流程中繼資料和資料管理制度中繼資料。資料品質管理,指運用品質管理技術稽核、度量、評估和改進資料的品質水準。資料安全管理,指通過制定和執行資料安全政策和措施,為資料提供的認證、授權、審計等安全管理能力。

資料服務。包括了與業務相關的、可複用的一些公共技術元件或産品,如資料目錄、資料标簽、資料分析、資料開放接口、機器學習算法模型等,它們可以使用SAAS方式直接對外提供服務,也可以以更小粒度如API、消息接口、檔案接口、服務接口、SDK軟體包等方式隻提供元件能力或資料服務,内部或外部第三方應用不必關心底層資料準備情況,直接調用資料服務子產品對外提供的服務接口,就可以友善進行二次開發,借以增強自身的能力。

以上五個功能部分中,資料采集、資料計算、資料存儲三部分能力,企業已經都有現成的一些積累,不需要重複開發,隻要合理規劃進行統一,就很容易擷取和建設起來。資料治理的能力,常常分散在各個支撐系統中,需要統一抽取出來,對以前考慮不全的内容需要補充。資料服務能力,則更多是與業務關聯的、複用性較好的應用元件,需要企業長期提煉、積累和優化。

資料中台架構圖

建構資料中台

資料中台的目标是讓資料持續用起來,通過資料中台提供的工具、方法和運作機制,把資料變為一種服務能力,讓資料更友善地被業務所使用。下圖所示為資料中台總體架構圖,資料中台是在底層存儲計算平台與上層的資料應用之間的一整套體系。資料中台屏蔽掉底層存儲平台的計算技術複雜性,降低對技術人才的需求,讓資料的使用成本更低。通過資料中台的資料彙聚、資料開發子產品建立企業資料資産。通過資産管理與治理、資料服務把資料資産變為資料服務能力,服務于企業業務。資料安全體系、資料營運體系保障資料中台可以長期健康、持續運轉。

------------------- 消息中間件Rabbitmq ----------------------------------

消息中間件Rabbitmq(01)

消息中間件Rabbitmq(02)

消息中間件Rabbitmq(03)

消息中間件Rabbitmq(04)

消息中間件Rabbitmq(05)

消息中間件Rabbitmq(06)

消息中間件Rabbitmq(07)

------------------- ---------- 雲計算  -------------------------------------

雲計算(1)——docker的前世今生

雲計算(2)—— 體系結構

雲計算(3)—— 容器應用

雲計算(4)—— LAMP

雲計算(5)—— Dockerfile雲計算(6)—— harbor

雲計算(7)—— 網絡

雲計算(8)—— jekins(1)

雲計算(9)—— jekins(2)

上一篇: java第九課
下一篇: 第九課作業

繼續閱讀