天天看點

MaxCompute(原ODPS)開發入門指南——資料開發工具篇

MaxCompute(原ODPS)開發入門指南——資料開發工具篇

但是資料在maxcompute上了之後,問題又來了,我怎麼基于上面進行快速的資料開發,建構大資料倉庫。

大資料開發套件基于maxcompute強大的計算存儲能力,提供多人協作開發能力且支援百萬級别任務穩定排程系統的線上開發工具,在阿裡巴巴集團内是建設大資料倉庫平台的必備工具。

通過拖拽式進行工作流任務的設計,包括上下遊節點任務的依賴關系。包括sql、mr、資料同步、機器學習、shell節點任務等。

MaxCompute(原ODPS)開發入門指南——資料開發工具篇
MaxCompute(原ODPS)開發入門指南——資料開發工具篇

支援常見的資料源內建,提供可視化方式配置和腳本模式,開發者可以根據自己喜好進行選擇。

MaxCompute(原ODPS)開發入門指南——資料開發工具篇
例子:ftp資料同步到maxcompute的可視化配置界面。如下:
MaxCompute(原ODPS)開發入門指南——資料開發工具篇
例子:ftp資料同步到maxcompute的腳本開發模式,包括reader和writer。如下:
MaxCompute(原ODPS)開發入門指南——資料開發工具篇

大資料開發套件data ide支援排程周期類型:天、小時、分鐘(5的倍數)、月、周。也就是說在大資料開發套件中如果做資料內建,最小的資料周期顆粒度為5分鐘一次。具體可以在排程配置中進行設定:

MaxCompute(原ODPS)開發入門指南——資料開發工具篇
隻需要進行下拉框配置即可設定工作流任務的排程周期和任務執行時間。

提供可視化運維界面,完全解放資料開發運維的問題,包括任務的重跑、kill和補資料等操作。

MaxCompute(原ODPS)開發入門指南——資料開發工具篇

在大資料開發套件中也提供了表級/字段級的資料血緣管理。同時提供整個組織級别的空間表權限管理,包括權限申請、授權和收回。

MaxCompute(原ODPS)開發入門指南——資料開發工具篇

不同于大資料開發套件data ide,maxcompute studio是阿裡雲數加maxcompute提供的本地內建開發環境,maxcompute studio 基于 intellij idea 平台提供了一套擴充插件,皆在提升maxcompute 使用者的開發體驗,給到使用者不同開發體驗的多種選擇。

MaxCompute(原ODPS)開發入門指南——資料開發工具篇

如下為我本地的開發環境界面:

MaxCompute(原ODPS)開發入門指南——資料開發工具篇

具體的安裝配置和使用可以檢視如下短視訊:

<a href="http://cloud.video.taobao.com/play/u/2065524484/p/1/e/1/t/1/56367656.swf" target="_blank">maxcompute studio安裝配置視訊</a>

工欲善其事必先利其器。在進行資料開發之前需要根據自己的業務情況、個人喜好來選擇正确的大資料開發套件。那麼講這麼多,這兩個具體在資料開發過程中的差異在哪?

【相同點】

兩者都是基于maxcompute之上的開發者工具,為開發者提供友好的開發體驗。

【差異點】

① 排程系統:data ide具有強大且穩定的排程系統,在阿裡集團内部穩定保障資料産生多年。适合資料開發者進行搭建大型資料倉庫。而maxcompute studio更偏向于本地開發和資料分析,是沒有自己的排程系統。

③ data ide大資料開發套件是線上的開發工具,使用者隻需要能夠上網即可進行。而maxcompute studio需要安裝在本地,故需要對本地的環境有要求。

MaxCompute(原ODPS)開發入門指南——資料開發工具篇
MaxCompute(原ODPS)開發入門指南——資料開發工具篇