近期Datahub進行了一次大的版本更新,從0.9版本以後Datahub也正式釋出了列級别資料血緣的功能。
0.9.1版本又增加了,列的影響分析這個功能。
這樣Datahub對于列級别資料血緣的功能支撐就非常完善了。
目前Datahub支援列級别資料血緣的主要功能有。
1、建立列級别資料血緣的API 2、Snowflake和Looker,Tableau的列級别資料血緣實作 3、列級别資料血緣的可視化 4、列的影響分析
列級别的資料血緣非常的重要。主要是從“來”和“去”兩個方向對于資料血緣進行分析。
1、了解列如何計算産生的
該列是否由敏感資料計算産生。
計算該列資料都進行了什麼運算?
2、了解該列如何被使用
可否棄用該列,而不影響後續的名額計算。
該列用于了哪張圖表?
與Atlas的展示不同,Datahub将列血緣和資料集血緣放在了一起展示,對于資料脈絡的了解也更加的清晰。
另外Datahub也釋出了未來一段時間的開發計劃表,值得關注的有:2022年四季度 ,實作Bigquery和Redshift 的列級别資料血緣。2023年一季度,實作對Spark的支援。
這也讓我們對Datahub的未來有了更多的期待,趕緊更新用起來吧!