天天看點

資料中台建設引擎Dataphin親測體驗報告一:功能完備性測評

作者:張骞 更多内容詳見資料中台官網

https://dp.alibaba.com

近期公司采購了阿裡雲智能資料建構與管理産品Dataphin,推廣大資料和IT部門使用,說需要統一資料研發規範性,還要釋放資料生産力,提高業務需求響應效率,作為大資料部門一個小分析師,有幸也體驗了這個阿裡雲上神秘的産品,看看是哪裡比較厲害,替代了原有的資料研發平台。

看外界宣傳文章,說Dataphin主打OneData體系——OneModel、OneID、OneService,是阿裡巴巴資料中台實踐産品,聽起來很有意思,本人就自己體驗大概分享下優劣。

以下均基于個人經曆背景、基于11月更新前的公共雲版本,表達個人觀點,不喜勿噴。

下面将以滿分5分,對Dataphin打分。

功能完備性 評分:4.2分

點評:滿足基本需求,部分功能待提升

概要:

從資料引入到資料最終使用,全套功能齊全:成員管理、計算設定、資料源配置、項目配置、資料引入同步、規範模組化研發、代碼&函數&資源開發、釋出管理、運維管理、資産查找、資産可視化、資産權限。大資料建設,用一個Dataphin即可。

雖然基本需求都可以滿足,但是部分業務場景,比如批量的排程節點操作、部分資料源同步,目前還不支援。

主要幾塊功能體驗大概如下:

支援生産開發的研發模式

可以配置生産和開發環境隔離的研發模式,開發環境對象需要釋出到生産環境才能生效,這樣可以最大程度保證資料生産的穩定性。

支援14種資料庫讀寫同步

官方目前支援了MySQL、PG、MongoDB、ADS、HBase、Vertica等14種資料庫,還是很齊全的,上雲的業務資料庫基本都可以支援。

資料同步配置簡潔,支援可視化的表單配置方式,也可以編寫SQL清洗規則。

資料中台建設引擎Dataphin親測體驗報告一:功能完備性測評

編輯器功能較全

腳本語言,Shell内置了一些常見python庫使用,比較友善。

SQL代碼,支援編輯器内智能提示,尤其邏輯表雪花模型式的提示和代碼使用,比較友善快捷。

資料中台建設引擎Dataphin親測體驗報告一:功能完備性測評

運維監控功能較全

日周月和小時分鐘排程已經支援,DAG圖也清晰容易操作(依賴上周期,也會特别辨別,邏輯表排程任務會區分出來)。

基本的重跑、終止等等都可以進行,也可以做生産任務的監控報警。用起來還是挺順手的。

資料中台建設引擎Dataphin親測體驗報告一:功能完備性測評

資産功能體驗不錯

支援計算引擎裡大資料計算存儲MaxCompute的中繼資料采集解析,有個資産全景,可視化檢視全局資料資産,這個還挺炫酷的。

資料中台建設引擎Dataphin親測體驗報告一:功能完備性測評

資産中繼資料目前有基本的表結構、讀寫時間、關聯任務、讀取次數和存儲量等,支援追溯字段粒度血緣關系,但是字段粒度的血緣關系不全(尤其實體表相關的),這個很有用,還是希望優化下。

支援資料探查,但是探查速度較慢。

關于建立項目的兩三事

這個需要小吐槽下,所有工作開始之前,最重要的就是建立項目!但是目前步驟比較繁瑣,讓人有點暈。大緻步驟就是:

①去MaxCompute建立Project(現在是基于Dataworks操作,還需要先開通Dataworks,有點煩);

②配置計算源;

③最後建立Dataphin的項目

這是什麼神開端,為什麼不能像PAI機器學習那樣,直接在Dataphin建立項目,同時關聯建立個MaxCompute Project呢?!不過還好,隻是低頻操作,希望後面可以改進下。

資料中台建設引擎Dataphin親測體驗報告一:功能完備性測評

其他期待

目前研發流程還是比較複雜的,作為小企業,有時候不需要生産環境、開發環境兩套,研發求的便捷,同時多配置一個計算源用于開發環境,也導緻不必要IT資源開支。

資料同步靈活性還需要提升,OSS、DB2、SAP HANA等不支援,不支援腳本化配置清洗規則等。此外,如果同步資料量過大,也無法設定計算資源大小,大資料量做資料同步,頭有點秃,最後隻能寫Shell腳本,但是Shell連接配接外部資料源需要顯示填寫AK資訊,有些不安全、不便捷。

公共雲有安全限制,Shell可安裝引用的外部資源大小有限,不是很友好。

關于MR和Spark腳本,現在不支援調試,函數也不支援調試,比較太麻煩了。

關于SQL文法編輯器提示偶爾有些卡頓,期望可以持續優化下;另外建議支援編輯器改顔色等,長期黑色背景看累了,可以切換。

運維不支援看運維大盤,不支援批量管理任務,監控報警配置規則有限,不支援基線管理任務。

資料産出品質不能監控,比如空表、主鍵不唯一等等,現在都需要人工寫Python實作。

(關于批量的問題,用到的時候才發現真的是企業級剛需,舉個例子,有一次有個小夥伴離職,目前,我需要一個個找到他負責節點再轉移負責人……關于基線的問題,有一批任務是Boss要看的,現在隻能人肉盯是不是到點能運作完成,或者配置前置的一些定時的Shell任務做監測,任務失敗就報警,達到監控目的)

權限不太用。(比如自己負責的表,還要自己審批下,申請其他資源,審批人是随機的…)

不支援配置資料API,開發出來的邏輯表資料,業務使用,還需要再多比較長的鍊路開發API

還有很多小而美的功能,已經整理給了采購部門做回報,看是否有計劃聯系産品,申請疊代優化,精益求精。

聽說後面會更新,支援單一生産環境的研發模式、可視化&元件化資料內建、自定義資源、資料服務更新、運維更新等,作為開發者,還是挺期待的,也提高研發流程的靈活性和擴充性,體驗也可以提升。

結語:

阿裡巴巴資料中台團隊,緻力于輸出阿裡雲資料智能的最佳實踐,助力每個企業建設自己的資料中台,進而共同實作新時代下的智能商業!

阿裡巴巴資料中台解決方案,核心産品:

Dataphin,以阿裡巴巴大資料核心方法論OneData為核心驅動,提供一站式資料建構與管理能力;

Quick BI,集阿裡巴巴資料分析經驗沉澱,提供一站式資料分析與展現能力;

Quick Audience,集阿裡巴巴消費者洞察及營銷經驗,提供一站式人群圈選、洞察及營銷投放能力,連接配接阿裡巴巴商業,實作使用者增長。

歡迎志同道合者一起成長!更多内容詳見資料中台官網