天天看點

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

作者:瓴羊資料君

Dataphin(智能資料建設與治理)是阿裡巴巴集團資料治理方法論基于内部實踐的産品化輸出,緻力于幫助企業用中台方法論治理企業級好資料,建構起品質可靠、消費便捷、生産安全經濟的企業級資料中台。

Dataphin V3.6版本全新上線概念模組化、基線運維、全域資料品質監控、資料标準标準落标映射等核心功能,為企業建設貫穿事前、事中、事後的全鍊路資料治理能力添磚加瓦,助力提升資産價值。

新版本更新後,可以更高效地幫助大家做什麼呢?來看幾個小場景,就一目了然了。

· 自動化基線運維代替人工監控

“有了基線運維功能,資料研發同學再也不用天天盯着螢幕看核心任務是不是都開始運作了,也不用經常檢查是不是漏配了監控,還能提前收到風險預警,預留充足的處理時間,大大減少了工作量”

· 開箱即用,助力全面提升資料品質

“更新後開發同學不僅能監控倉内表的品質情況,還能監控資料源内的表,在資料引入環節就能發現品質問題,将風險前置。同時因為Dataphin V3.6版本内置了豐富的品質規則模闆,不用寫SQL也能配置出支援靈活業務需求的監控規則了,再也不怕業務小哥給來提需求了。”

· 簡化補資料配置,資料回刷更快更穩

“以往配置補資料任務時,最怕誤選了暫停排程的節點,整個補資料程序都可能被阻斷。有了一鍵過濾暫停排程任務這個功能,可以放心補資料了,操作效率飛漲。”

· 靈活的脫敏配置,适配業務需求

“營運同學說性别次元可以用來做分組條件,隻在展示的時候脫敏就行啦;财務同學說薪資是絕密資料,一定要在查詢時就脫敏,從根本上杜絕資料洩露;有了脫敏政策配置,再也不怕這種靈活多變的需求。”

Dataphin V3.6版本更新功能點

1、貫穿事前規劃、事中監控、事後稽核的全鍊路資料治理能力

· 概念模組化:可視化定義基于實際業務場景抽象出的業務實體及關系,以更好地反映業務之間的聯系,并為邏輯模型建設提供依據。

· 智能基線監控:支援配置天基線,添加需要保障的關鍵任務或字段後,系統可基于依賴關系自動圈選需要納入監控範圍的任務,同時支援配置靈活的告警規則及接收方式,以降低人工運維成本。

· 全域資料品質:拓展支援針對多種資料源表的品質監控,内置豐富的品質規則模闆,同時支援基于業務場景自定義監控規則,以提升配置靈活性和業務監控覆寫面。

· 資料标準落标:新增支援批量導入資料标準,提升配置效率;支援基于标準屬性和字段中繼資料進行關聯映射配置,實作标準和資産的關聯,作為後續落标稽核的基礎。

2、拓展多引擎、多類型資料源、多消息管道,滿足企業多元化數智應用需求

· ADB引擎适配:新增适配以AnalyticDB for PostgreSQL作為計算引擎,可支援資料內建、離線&實時資料研發、資料品質、資産安全、資料服務等功能,助力企業建構統一的資料倉庫平台。

· 資料源拓展:新增支援達夢資料源可用于離線內建、提升對國産資料庫的支援度;Hive及HDFS的資料源增加EMR版本選擇,實時內建輸出元件新增支援Hive,增強對Hive資料源的适配度。

· 自定義消息管道:支援自定義消息發送管道,通過配置化的方式實作與阿裡雲電話&短信、企業自有消息管道的對接,以接收任務監控、品質監控、資料服務監控等告警資訊。

3、研發體驗優化,加速企業數字能力建設

· 編輯器優化:優化報錯提示,可快速定位到錯誤代碼行并提示錯誤原因及修複建議;新增set參數提示,可檢視參數的預設值、類型及說明,提升資料開發效率。

· 內建元件優化:Orcale元件适配特殊字元的處理以減少運作報錯,hologres元件支援填寫SQL準備及完成語句,hana元件支援小寫表名等,降低內建任務配置成本

· 補資料優化:支援一鍵過濾下遊暫停排程的任務及其全部下遊,以保障補資料整體鍊路可正常執行,減少人工篩選成本

· 脫敏方式拓展:支援配置底層查詢直接過敏或僅展示脫敏,以支援簡單的where/join等子查詢場景,對業務使用更友好

重點特性介紹

特性1:基礎研發版支援AnalyticDB PostgreSQL計算引擎

應用場景:構築可線性擴充的企業資料倉庫服務,加速企業資料分析和營運體系搭建

AnalyticDB PostgreSQL強相容PG/Greenplum開源生态,相容Oracle/TD文法生态,具備秒級彈性和資料共享等國内領先的産品能力;支援複雜SQL優化、海量資料關聯聚合、資源負載管理,可提供PB級企業資料分析服務。

Dataphin基礎研發版支援以AnalyticDB PostgreSQL作為計算引擎,使用者現有的OLTP資料庫執行個體,如RDS MySQL,PostgreSQL,或傳統資料庫執行個體 Oracle,SQL Server等,均可以通過Dataphin的資料內建和排程能力同步到AnalyticDB PostgreSQL;結合資料品質監控、安全分類分級及脫敏配置等功能,打通入庫、清洗、分析和洞察的全鍊路,助力企業建構統一的資料倉庫平台,加速面向業務場景的資料分析和營運體系搭建。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力
Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

特性2:概念模組化

應用場景: 可視化定義基于實際業務場景抽象出的業務實體及關系,為邏輯模型建設提供依據

主題域層級從1級拓展到最多5級,企業可基于主題域更好的建構資産類目體系,實作資料分層管理。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

新增概念模組化能力,在數倉規劃及資料架構設計階段,支援可視化配置基于實際業務場景抽象出的業務實體及其之間的關系,并以實體關系流程圖的形式直覺展示,有利于資料消費者更好了解資料和資料對應的業務。如制造業中的“原材料采購”場景,可以抽象出“客戶、訂單、原材料商品、位址”等業務對象,以及“供應商詢價、下采購單、财務預付款、供應商發貨、到貨簽收、财務付尾款”等業務活動。

此外,業務實體間的關系類型,在原有關聯, 繼承, 層級的基礎之上, 新增前後序、流轉、包含關系, 以便更精确的反映真實業務聯系。如:“采購”流程包含“供應商發貨”和“到貨簽收”兩個事件,兩個事件之間是流轉關系,而“采購”是“供應商評審”的後續流程。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

概念模型建立完成後,可基于定義的業務實體快速建立對應的邏輯表,預設繼承實體之間的關系并自動翻譯為資料表之間的關聯邏輯,實作概念模型和邏輯模型的映射,為模型開發提供業務輸入和指導。

特性3:基線運維

應用場景:保障核心業務資料的産出任務,及時發現異常并預警,降低對業務用數的影響

1、添加需要保障的任務或字段後,系統将基于依賴關系自動推算需要納入監控範圍的上遊節點,降低人工配置成本。

配置時隻需要關注需要保障産出及時性的核心業務資料對應的任務或字段即可,而無需關心整體依賴鍊路的上遊節點,系統将基于任務之間的依賴關系自動推導計算需要納入監控範圍的節點。這樣一來,即使更新了任務依賴關系,也無需更新基線配置,大大降低了人工操作成本;同時也提升了監控準确性,避免因為配置不同步而導緻的監控缺失。

2、可自定義配置基線整體的預警及破線告警、基線監控範圍内單個節點的運作出錯或變慢告警,便于及時發現異常并處理。

可以将需要保障資料的預計産出時間配置為基線的“保障時間”;同時可以根據任務複雜度和業務重要程度,預估任務運作出現異常可能需要的處理時間,将其配置為基線的“餘量”,承諾時間-餘量即為基線的預警時間。周期運作過程中,系統将根據基線鍊路上每個節點最近7天的曆史運作概況,推算保障節點的預計運作完成時間。如果推算出的時間晚于配置的預警及承諾時間,則會發送基線告警,給開發人員和業務人員對應的通知。

此外,還可以給基線鍊路上的單個任務或字段配置運作變慢或運作出錯的告警,便于盡早發現可能出現的異常并處理,保障業務資料能正常産出。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

3、支援檢視每條基線的運作詳情,如果存在預警或破線的風險,可自動識别定位到關鍵路徑上的關鍵執行個體,便于開發運維人員直接處理,減少人工分析定位。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力
Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

特性4:資料标準

應用場景:支援标準和資産的映射關聯,以作為品質稽核的參考,提升企業資産治理水準。

1、标準屬性配置優化,支援批量導入資料标準,提升配置效率。

支援配置屬性字段的取值類型(自定義輸入、枚舉單選、枚舉多選)及取值限制,同時也可引用碼表作為枚舉取值來源,以增強标準定義的規範性。如,名額的“業務分類”屬性需要來源于企業的“業務系統”碼表、“字段長度”屬性的取值範圍需要限制在0~128字元等。

支援下載下傳标準定義模闆,并通過上傳Excel檔案方式批量導入資料标準,實作曆史标準的批量遷移入庫。支援檢視導入執行日志;支援配置導入沖突處理政策;支援一鍵下載下傳異常記錄及異常提示,以提升配置效率。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力
Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

2、支援基于标準屬性和中繼資料字段進行關聯映射配置,實作标準和資産的關聯,作為後續落标稽核的基礎。

支援将标準屬性和資産中繼資料進行關聯映射配置,實作标準和資産的關聯。可以在資産目錄檢視字段及名額的落标映射結果,以便參考映射到的标準定義進行開發,将資料治理前置到研發鍊路。針對不滿足關聯标準的資産,可以盡早進行整改,提升企業整體數字能力建設的标準化成熟和資産的健康度。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

3、支援碼表、詞根的定義及管理。

碼表可用于限制标準屬性字段的取值範圍,提升标準定義的準确性;詞根可作為資料表、字段等研發對象命名的參考依據,提升研發規範性。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

特性5:全域資料品質

應用場景:通過對全域資料表及資料源的監控,将資料品質風險前置,進一步提升資産健康度。

1、支援計算引擎内及多種資料源表的品質監控,支援資料源連通性及表結構異動性監控。

資料品質子產品分為域内版和全域版。其中,域内版可以針對計算引擎内的實體表及字段,以及Dataphin特有的邏輯表、名額和實時元表進行品質監控;同時還支援對已建立資料源的連通性以及監控範圍内的表結構異動性進行監控。全域版在支援計算引擎内實體表的基礎上,還支援10餘種資料源的表監控,如MySQL、Oracle、Hana等。結合使用全域版和域内版的功能,能夠拓展可監控的資産對象類型,将資料品質風險前置,降低對後續研發鍊路的影響。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

2、基于DAMA體系内置豐富的品質規則模闆,開箱即用;可自定義監控規則并支援配置規則觸發方式,以靈活适配多樣化的業務需求。

基于DAMA(國際資料資産管理協會)體系,Dataphin品質子產品内置完整性、唯一性、及時性、一緻性、有效性、穩定性6類場景的系統模版及規則,大大降低使用門檻;支援自定義SQL的方式建立規則模版,以靈活适配多樣性的業務需求。此外,支援配置靈活多樣的規則觸發條件,如定時觸發、代碼運作觸發、任務排程觸發等,可滿足不同的開發場景。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

3、自動生成品質監控報告,支援檢視下載下傳異常資料,可作為品質整改的參考。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

特性6:編輯器優化

應用場景:優化報錯及參數自動提示,提升開發效率和使用體驗。

1、報錯提示優化:支援快速定位到錯誤代碼行并辨別錯誤語句,提示錯誤原因及修複建議;可自動識别不規範的代碼語句,支援一鍵修複或忽略提醒。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

2、支援set參數提示:提示可選的參數,并支援檢視參數的預設值、類型及說明;指定參數後,如有預設值或枚舉值,自動提示可選值。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

特性7:實時內建支援增量同步到Hive

應用場景:實時增量從MySQL或Oracle抽取資料同步到Hive

支援批量在Hive目标庫自動建表,可自動為目标表添加系統附加字段;支援處理DDL,如新增表、删除表、表結構變更等8種場景;提供預覽字段功能,可檢視源表與目标表字段的差異對比,減少手動建表操作。支援智能檢查目标表規範性及可用性,針對異常結果給出告警、錯誤等不同等級的提示,将問題前置以降低任務運作錯誤的可能性。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

此外,新增實時內建任務的送出詳情,異常及風險提示一目了然,校驗流程透明化。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

特性8:離線內建元件優化

應用場景:适配多種資料源的特殊邏輯及異常處理,提升內建任務配置流暢度。

  • 輸入元件,對PostgreSQL、AnalyticDB for PostgreSQL類型的資料源,在使用QuerySQL方式時,支援添加常量字段
  • Hana元件支援小寫表名
  • 由于AnalyticDB for PostgreSQL僅支援在建表時指定分區字段,不支援後續添加,是以在整庫遷移目标資料源為AnalyticDB for PostgreSQL時,自動添加分區字段,以适配需要建立分區的場景
  • Hologres輸出元件支援填寫SQL準備語句和完成語句
  • 優化Oracle來源表帶有特殊字元(如/)時的處理政策,使離線管道任務能正常運作而無需使用自定義元件,降低配置成本

特性9:補資料支援過濾暫停節點

應用場景:批量選中多層節點進行補資料,可一鍵過濾暫停節點,避免阻斷補資料任務執行。

排程方式為“暫停排程”的任務,生成的補資料執行個體預設為暫停運作。暫停運作的節點會阻斷下遊其他執行個體的運作,此外如果選擇了多個補資料業務日期且設定為周期間串行(即并發分租數為1),還會影響後續業務日期執行個體的執行,阻斷整個補資料程序。

基于該背景,Dataphin新增支援在配置補資料任務時,可一鍵過濾暫停排程的任務極其下遊節點。此外某些場景下,暫停排程的任務在補資料對應的業務日期下需要正常參與排程,如每月第一天運作的财務月結算任務,需要在指定的臨時結算日期運作。針對這種場景,新增支援配置選中的暫停任務在選中的補資料業務日期的運作方式,可選空跑、正常運作、暫停運作,以靈活适配多樣性的業務求。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

特性10:脫敏規則支援配置脫敏方式

應用場景:通過配置查詢時不脫敏僅展示脫敏,以支援簡單的where/join等條件,對業務使用更友好

資料開發中,常常對一些敏感字段需要配置脫敏規則,以保障資料安全。預設情況下,在整個研發鍊路中,配置了脫敏規則的資料均使用脫敏後的結果參與計算,會導緻where/join等條件不生效的問題,影響業務使用。基于此背景,Dataphin支援針對脫敏規則配置不同的脫敏方式:

  • 底層脫敏:在資料被查詢時就進行脫敏。SQL的處理過程中,均使用脫敏後的結果處理,能對資料起到更好的保護效果
  • 僅展示脫敏:在資料被查詢時不進行脫敏,僅在最後對外展示的時候進行脫敏。SQL處理過程中,均使用原文進行處理,是以可以支援簡單的where/join等條件,對業務使用更友好。需要注意的是,如果對敏感字段使用UDF處理(如字元串截取),會觸發脫敏降級,該字段生成的衍生字段會統一降級為***。
Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

通過該能力,開發人員可以根據不同的使用場景配置不同的脫敏政策,以更好地适配業務需求,平衡好資料安全性和使用靈活性。

特性11:自定義消息管道

應用場景:快讀對接阿裡雲電話/短信以及企業自有消息管道,以擷取告警及消息通知

支援執行個體級别和租戶級别的自由配置,不同租戶可開啟不同的消息管道。支援快速對接阿裡雲的電話及短信管道,或經過簡單的參數配置對接企業自由的消息管道。配置完成後,支援發送測試消息,以快速驗證管道可用性,保證消息可正常發送。

Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力
Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力
Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

特性12:跨租戶釋出配置優化

應用場景:導入導出配置優化,支援對接外部存儲系統,釋出流程更順暢

1、導出檔案配置優化:

  • 新增可設定“是否導出建表語句”;如設定了導出,可在待釋出對象清單下載下傳建表檔案
  • 新增支援設定“是否運作下載下傳釋出檔案”
  • 新增支援釋出檔案外部存儲設定(本期支援啟用OSS存儲),可設定導出完成後“是否自動轉存外部存儲”,并支援設定同名檔案沖突處理政策;若開啟外部存儲,待釋出對象清單可一鍵轉存并檢視轉存記錄
Dataphin V3.6版來了 多項能力更新助力企業提升全鍊路資料治理能力

2、導入資料源校驗優化:

  • 按照“資料源名稱”進行比對,如有名稱相同的資料源則校驗資料源類型,類型一緻則認為在目标環境比對成功
  • 如果未比對到同名資料源,僅提示風險,不阻斷釋出(可能導緻依賴對應資料源的任務釋出失敗)

總結與展望

本次釋出的V3.6版本中,Dataphin圍繞資料資産建設、資料資産治理、基礎平台等三大功能闆塊進行了完備性、安全性、研發效率、開放性、穩定性、易用性、可傳遞性等方面進行了優化和更新。

在下一個版本中,我們将持續提升資産建設平台的易用性及可傳遞性、資産治理平台的完備性以及基本戶平台的穩定性和開放性進行疊代,敬請期待!

繼續閱讀