[Apache Atlas] Atlas 架構設計及源代碼簡單分析

2021-09-17 21:26:00

Apache Atlas 架構設計及源代碼分析, 以Hive建庫為例,分析中繼資料采集的主體流程

Atlas 支援多資料源接入:Hive、HBase、Storm等

Atlas 中定義了一些中繼資料類型

Entity 是基于類型的具體實作

針對模型定義屬性

AtlasAttributeDef 屬性字段:

isComposite - 是否複合

isIndexable - 是否索引

isUnique - 是否唯一

multiplicity - 訓示此屬性是（必需的／可選的／還是可以是多值）的

Referenceable

This type represents all entities that can be searched for using a unique attribute called qualifiedName.

以Hive元資訊采集為例分析采集過程:

import-hive.sh

上面是調用過程：

importTables -> importTable --> registerInstances

通過Http Post 的請求将庫表資料更新至Atlas

atlasClientV2有很多Http接口

Atlas HTTP 用戶端API:

<code>HiveHook implements ExecuteWithHookContext</code>

ExecuteWithHookContext is a new interface that the Pre/Post Execute Hook can run with the HookContext.

實作run()方法來對Hive 相關事件做處理

Hive相關事件:

以create database 為例分析流程:

主要:

擷取實體資訊, 傳遞Hook message的類型、操作使用者

notifyEntities 可以看出其他元件HBase、impala也會調用該方法進行消息的發送

消息通知架構:

資料寫入Kafka中:

根據NotificationType寫入指定topic 中:

資料主要寫入兩個Topic中: ATLAS_ENTITIES、ATLAS_HOOK

ATLAS_HOOK是寫入Hook事件消息, 建立庫的事件中繼資料資訊會寫入該Topic中

如何唯一确定一個庫：

dbName@clusterName 确定唯一性

一個基于Hive hook 實作Impala 中繼資料重新整理的用例:

AutoRefreshImpala：https://github.com/Observe-secretly/AutoRefreshImpala

[1] Apache Atlas – Data Governance and Metadata framework for Hadoop

[2] Apache Atlas 源碼

本文作者: chaplinthink, 關注領域:大資料、基礎架構、系統設計, 一個熱愛學習、分享的大資料工程師

[Apache Atlas] Atlas 架構設計及源代碼簡單分析

繼續閱讀

主資料治理項目技術标書檔案撰寫心得

數字決策場景價值最大。最近接了一個協助銷售的工作，其中有一個客戶問的問題就是說資料治理到底對企業業務部門有什麼價值？我的

管網全生命周期數字孿生平台。在2021至2025年期間，規劃數字基礎、數字賦能、數字驅動、全數字化四個階段，有計劃地實作

原文《企業數字化轉型大資料治理與共享服務平台建設實施方案》WORD格式。來源網絡，旨在交流學習，如有侵權，聯系速删，更多

記錄檔資料治理實戰

企業資料治理：資料服務雲平台架構解決方案（PPT）

資料治理架構：資料驅動型企業的基石

我一氣之下氣了一下#atlas

《資料資産管理實踐白皮書4.0》下載下傳！（附PPT解讀）

《大資料講堂》：世平資訊首席科學家呂喆談資料治理的落地措施

資料治理：說起來容易，做起來難？

atlas 初體驗

145份！資料治理、資料中台、資料湖、資料倉庫、主資料方案合集

資料被污染後怎麼辦？

NGUI支援TexturePacker導出有旋轉的Sprite,無需Transform旋轉版本

[月刊]《網絡安全與資料治理》2023年第7期目錄