天天看點

傳統企業業務更新的一些思路和方法

大資料平台的概述

大資料平台統一管理、集中存儲大資料資源,滿足高并發,海量資料對高性能計算能力和大容量存儲能力的需求,提供資料采集,資料計算,資料存儲,資料分析,資料可視化等大量開放能力,確定各系統之間資料的互聯互通和共享,為資料的全鍊條透明化、營運決策的高度智能化提供依據,盡早建立大資料平台具有重要意義。

建構大資料平台的必要性

大資料平台承載所有資料的管理,為上層應用提供資料支撐。傳統的開發模式中,各個應用開發獨立進行,各自沉澱自己的資料。各個應

用的資料缺乏整合,形成資料孤島,後續無法沉澱資料資産。同時,因為沒有一個統一的大資料平台,各個應用都會有自己的資料存儲和計算體系,存在大量的重複建設。

以資料中台為核心的上層智能應用的開發,離不開大資料平台的支援。大資料平台提供統一的資料資料存儲,計算能力。上層應用不需要再重複開發,隻需要使用資料中台提供的能力。同時,多個上層應用的資料也集中沉澱到一起,形成有效的資料資産。

大資料平台建設

一般來說大資料主要具有以下特征

  • 資料海量性
  • 資料稀疏性
  • 資料複雜性
  • 資料豐富性

大資料平台架構一般包含以下元件

  • 資料采集
  • 資料存儲
  • 資料計算
  • 資料管理
  • 資料服務

大資料內建子系統

大資料平台需要提供資料采集能力,完成從傳統資料庫到大資料平台的資料采集,包含批量采集和基于流處理的實時采集,平台提供如下能力:

  • 批量資料采集:大資料平台支援資料批量采集,對于大量、實時性要求不高的資料适宜采用定時執行批量采集。
  • 實時資料采集:對于實時性要求較高的資料,支援實時資料采集的方式,保障平台資料及時性。
  • 網際網路資料采集:網際網路的資料采集方式主要以頁面文本或文檔形式的資料為主,為了相容不同類型的網際網路輸入方式,一般先将資料進行流式資料清洗後,再送到搜尋引擎或者其他資料庫中。

大資料開發子系統

大資料平台需要提供對海量資料彙總後的多種資料并行處理,包括離線的批處理、SQL 處理、以及近實時的記憶體處理等,大資料平台提供如下資料開發功能,幫助實作資料治理,資料聚合和資料轉換,平台提供如下能力:

  • 資料查詢:資料開發支援各種常用資料庫的SQL語句,例如Oracle、MySql、SQLite、PostgreSQL、Hive等等。
  • 資料開發編輯器:資料開發編輯器支援常見語言及腳本編輯模式,可以結合實際情況,自由選擇開發形式,輕松實作資料治理任務開發的子產品化、元件化。
  • 資料處理工作流配置:在資料開發編輯器中,寫好資料處理的任務後,可以将這些任務添加到資料處理工作流中,讓這些處理任務按順序逐個執行,實作資料處理工作流程的自動化。如下圖所示,拖動任務類型圖示至工作流中即可,所有任務将按照箭頭順序從上到下執行。
  • 資料工作流定時執行設定:新增定時任務,選擇需要定時執行的工作流,配置工作流運作周期、時區和運作時間區間,即可實作資料處理任務的自動定時執行。