天天看點

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識

類似于傳統資料倉庫,我們都會經曆etl的過程,e-資料抽取,t-資料轉換,l-資料裝載。但在大資料時代下,資料倉庫在資料清洗模組化過程中,稍微有些不同,準确的說,他是elt的過程。首先需要将散落在各地的資料統一進行資料采集到大資料計算服務上,這個過程就是e和l。然後基于大資料計算服務的大存儲和高性能計算能力進行資料的清洗和轉化,也就是t。具體可以見如下圖:

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識
阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識

大資料開發套件data ide是基于maxcompute 之上的資料開發工具,在阿裡巴巴集團内部也是身經百戰,經曆過雙11大考,都得益于其背後強大的排程系統。

資料加工清洗模組化都需要使用者在data ide中編輯工作流任務,根據自己的業務邏輯來配置上下遊關系和排程時間。支援排程周期類型:天、小時、分鐘(5的倍數)、月、周。也就是說在大資料開發套件中如果做資料內建,最小的資料周期顆粒度為5分鐘一次。具體可以在排程配置中進行設定:

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識
隻需要進行下拉框配置即可設定工作流任務的排程周期和任務執行時間。

資料的清洗、加工最終被下遊系統所消費,主要會進行報表展示或其他更深層次的挖掘分析。那阿裡雲quick bi也與maxcompute無縫進行對接,也支援将制作好的報表嵌入到第三方系統中。阿裡雲quick bi如下示意圖:

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識
阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識

大家從上面的架構圖中也可以看出,資料隻有流經maxcompute才可被記錄,包括他的表級别血緣關系和字段級血緣關系。

項目空間:等同于maxcompute project,項目空間是大資料開發平台最基本的組織對象,類似于傳統資料庫的database。大資料開發套件的項目空間,是進行多組織隔離和通路控制的主要邊界,也是使用者管理表(table)、資源(resource)、自定義函數(udf)、節點(node)、工作流(workflow)、權限等的基本單元。 在大資料開發平台中,一個項目空間對應綁定一個maxcompute project。

工作流:工作流是一個dag圖(有向無環圖),其描述了作業中多個節點之間的邏輯(依賴關系)和規則(運作限制)。

工作流任務/節點:工作流任務是一個完整的獨立排程的整體。工作流節點屬于工作流任務的子對象,是資料處理和分析過程的基本單元,每個節點任務對應工作流任務dag圖中的一個節點,其可以是一個sql query、指令和mapreduce程式。

節點任務:節點任務也是一個完整的獨立排程的整體,也是資料處理和分析過程的基本單元。

依賴關系:描述兩個或多個節點/工作流之間的語義連接配接關系,其中上遊節點/工作流的運作狀态可以影響下遊節點/工作流的運作狀态,反之則不成立。

在大資料開發套件中,節點任務在執行時會被執行個體化,并以maxcompute執行個體的形式存在。執行個體會經曆未運作、等待時間/等待資源、運作中、成功/失敗幾個狀态。當天晚上23:30節點轉執行個體!

當天晚上23:30節點轉執行個體!也就是說,在當天23:30之前送出到排程系統的配置項都會轉執行個體即生效,過了這個點送出的任務則需要再隔一天進行生效。這一點務必注意!!!!

資源:資源是大資料開發套件的特有概念,使用者可以上傳本地自定義的jar或檔案作為資源,在節點運作時調用。如maxcompute mr需要上傳jar包作為資源來進行執行。

在大資料時代,資料是一個公司的生命,在一個團隊中如何進行一個角色和權限的隔離,以保障資料的安全性。那data ide在角色和權限上也做了很多工作,總體上角色可以分為:組織管理者、項目管理者、開發、運維、部署和訪客。具體如下:

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識

在阿裡雲數加·大資料開發套件中,也提供了多項目空間之間的釋出流程,但是在業務劃分過程中,需要根據自己公司業務情況來定,一般情況下可以按照如下規則來進行項目的配置:

建立單個項目空間:适用于業務較單一,成員角色基本一緻,無需嚴格的經過資料開發>測試>預發>生産等開發流程。

建立開發/生産項目空間:适用于業務相對複雜,又對生産安全性要求很高的,需要經過開發>測試>生産流程。

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識

↓↓↓↓分割線↓↓↓↓

之前斷斷續續寫了幾篇,也有幾篇一直是熱文,對大家在開發過程中也起到了一定的幫助作用。總體羅列如下,給大家提供個索引:

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識

---華麗的分割線---

阿裡雲大學精品課程:深入了解阿裡雲數加大資料開發套件Data IDE-基本知識