天天看点

AirFlow功能展示个人笔记

​​DAGs 查看您可以一目了然地查看成功、失败及当前正在运行的任务数量。​​

AirFlow功能展示个人笔记

 选中其中一个DAG

AirFlow功能展示个人笔记

​​树视图​​

跨越时间的 DAG 的树表示。如果 pipeline(管道)延迟了,您可以很快地看到哪里出现了错误的步骤并且辨别出堵塞的进程。

AirFlow功能展示个人笔记

​​图表视图​​

图形视图可能是最全面的一种表现形式了。它可以可视化您的 DAG 依赖以及某个运行实例的当前状态。

AirFlow功能展示个人笔记

 任务持续时间图

过去 N 次运行的不同任务的持续时间。通过此视图,您可以查找异常值并快速了解 DAG 在多次运行中花费的时间。

AirFlow功能展示个人笔记

​​甘特图​​

甘特图可让您分析任务持续时间和重叠情况。您可以快速识别系统瓶颈和哪些特定 DAG 在运行中花费了大量的时间。

AirFlow功能展示个人笔记

​​代码视图​​

透明就是一切。虽然您的 pipeline(管道)代码在源代码管理中,但这是一种快速获取 DAG 代码并提供更多上下文的方法。

AirFlow功能展示个人笔记

​​任务实例上下文菜单​​

从上面的页面(树视图,图形视图,甘特图......)中,始终可以单击任务实例,并进入此丰富的上下文菜单,该菜单可以将您带到更详细的元数据并执行某些操作。

AirFlow功能展示个人笔记

 任务实例细节

AirFlow功能展示个人笔记
AirFlow功能展示个人笔记

 任务实例

AirFlow功能展示个人笔记
AirFlow功能展示个人笔记

 查看日志

AirFlow功能展示个人笔记
AirFlow功能展示个人笔记

 调度周期

AirFlow功能展示个人笔记
AirFlow功能展示个人笔记

所有的任务实例

AirFlow功能展示个人笔记

 所有作业

AirFlow功能展示个人笔记

 记录了所有DAG的运行情况

AirFlow功能展示个人笔记

​​池​​

当有太多进程同时运行时,某些系统可能会被淹没。Airflow 池可用于限制任意任务集上的执行并行性 。通过为池命名并为其分配多个工作槽来在 UI

AirFlow功能展示个人笔记

​​连接​​

外部系统的连接信息存储在 Airflow 元数据数据库中,并在 UI 中进行管理(​

​Menu -> Admin -> Connections​

​​)。在那里定义了​

​conn_id​

​​ ,并附加了主机名/登录/密码/结构信息。 Airflow 管道可以简单地引用集中管理的​

​conn_id​

​而无需在任何地方硬编码任何此类信息。

可以定义具有相同​

​conn_id​

​​许多连接,并且在这种情况下,并且当挂钩使用来自​

​BaseHook​

​​的​

​get_connection​

​方法时,Airflow 将随机选择一个连接,允许在与重试一起使用时进行一些基本的负载平衡和容错。

Airflow 还能够通过操作系统中的环境变量引用连接。但它只支持 URI 格式。如果您需要为连接指定​

​extra​

​信息,请使用 Web UI。

如果在 Airflow 元数据数据库和环境变量中都定义了具有相同​

​conn_id​

​​连接,则 Airflow 将仅引用环境变量中的连接(例如,给定​

​conn_id​

​​ ​

​postgres_master​

​​,在开始搜索元数据数据库之前,Airflow 将优先在环境变量中搜索​

​AIRFLOW_CONN_POSTGRES_MASTER​

​并直接引用它)。

许多钩子都有一个默认的​

​conn_id​

​​,使用该挂钩的 Operator 不需要提供显式连接 ID。 例如,​​

​PostgresHook​

​​​的默认​

​conn_id​

​​是​

​postgres_default​

​ 。

AirFlow功能展示个人笔记

​​XComs​​

XComs 允许任务交换消息,允许更细微的控制形式和共享状态。该名称是“交叉通信”的缩写。XComs 主要由键,值和时间戳定义,

但也跟踪创建 XCom 的任务/DAG 以及何时应该可见的属性。任何可以被 pickle 的对象都可以用作 XCom 值,因此用户应该确保使用适当大小的对象。

AirFlow功能展示个人笔记

​​变量​​

变量是将任意内容或设置存储和检索为 Airflow 中的简单键值存储的通用方法。可以从 UI(​

​Admin -> Variables​

​),代码或 CLI 列出,