大資料平台的概述
大資料平台統一管理、集中存儲大資料資源,滿足高并發,海量資料對高性能計算能力和大容量存儲能力的需求,提供資料采集,資料計算,資料存儲,資料分析,資料可視化等大量開放能力,確定各系統之間資料的互聯互通和共享,為資料的全鍊條透明化、營運決策的高度智能化提供依據,盡早建立大資料平台具有重要意義。
建構大資料平台的必要性
大資料平台承載所有資料的管理,為上層應用提供資料支撐。傳統的開發模式中,各個應用開發獨立進行,各自沉澱自己的資料。各個應
用的資料缺乏整合,形成資料孤島,後續無法沉澱資料資産。同時,因為沒有一個統一的大資料平台,各個應用都會有自己的資料存儲和計算體系,存在大量的重複建設。
以資料中台為核心的上層智能應用的開發,離不開大資料平台的支援。大資料平台提供統一的資料資料存儲,計算能力。上層應用不需要再重複開發,隻需要使用資料中台提供的能力。同時,多個上層應用的資料也集中沉澱到一起,形成有效的資料資産。
大資料平台建設
一般來說大資料主要具有以下特征
- 資料海量性
- 資料稀疏性
- 資料複雜性
- 資料豐富性
大資料平台架構一般包含以下元件
- 資料采集
- 資料存儲
- 資料計算
- 資料管理
- 資料服務
大資料內建子系統
大資料平台需要提供資料采集能力,完成從傳統資料庫到大資料平台的資料采集,包含批量采集和基于流處理的實時采集,平台提供如下能力:
- 批量資料采集:大資料平台支援資料批量采集,對于大量、實時性要求不高的資料适宜采用定時執行批量采集。
- 實時資料采集:對于實時性要求較高的資料,支援實時資料采集的方式,保障平台資料及時性。
- 網際網路資料采集:網際網路的資料采集方式主要以頁面文本或文檔形式的資料為主,為了相容不同類型的網際網路輸入方式,一般先将資料進行流式資料清洗後,再送到搜尋引擎或者其他資料庫中。
大資料開發子系統
大資料平台需要提供對海量資料彙總後的多種資料并行處理,包括離線的批處理、SQL 處理、以及近實時的記憶體處理等,大資料平台提供如下資料開發功能,幫助實作資料治理,資料聚合和資料轉換,平台提供如下能力:
- 資料查詢:資料開發支援各種常用資料庫的SQL語句,例如Oracle、MySql、SQLite、PostgreSQL、Hive等等。
- 資料開發編輯器:資料開發編輯器支援常見語言及腳本編輯模式,可以結合實際情況,自由選擇開發形式,輕松實作資料治理任務開發的子產品化、元件化。
- 資料處理工作流配置:在資料開發編輯器中,寫好資料處理的任務後,可以将這些任務添加到資料處理工作流中,讓這些處理任務按順序逐個執行,實作資料處理工作流程的自動化。如下圖所示,拖動任務類型圖示至工作流中即可,所有任務将按照箭頭順序從上到下執行。
- 資料工作流定時執行設定:新增定時任務,選擇需要定時執行的工作流,配置工作流運作周期、時區和運作時間區間,即可實作資料處理任務的自動定時執行。