天天看点

Meson,用于协调和调度Netflix推荐工作流的架构

netflix力图在人们未观看视频之前就预测他们想看的。为此netflix每日运行多个机器学习(ml)工作流,这些流水线用于构建、训练并验证有助于视频推荐的个性化推荐算法。meson是一个工作流的协调和调度架构,它管理这些所有机器学习流水线的生命周期。

近期netflix开发团队公开了meson架构,并描述了它是如何作用于机器学习流水线的。meson的目标之一是当允许工程师用自选的技术构造流水线的每一步时,增进整体算法实验的速度、可行性和可重复性。

部分在netflix的机器学习流水线中发挥了重要作用的技术包括:spark mllib、python、 r 和docker。

一个典型的用于驱动视频推荐的机器学习流水线包括如下步骤:

用户选取;特征生成;模型训练;模型验证;模型发布。

在netflix,用户选取步骤通过hive查询实现了对用于分析的用户队列的选择。数据清洗和准备功能由python脚本实现,该脚本创建了两套用户,用于并行的两条执行路线。其中的一条执行路线实现对全局模型的构建和分析,其中使用了apache spark作为运算架构,以及hdfs作为临时存储。另一条执行路线使用r语言构建地区(国家)特定的模型,其中地区的数量依据为分析所选取的队列而动态变化。

模型验证步骤用scala代码实现,。该步骤用于测试当两条执行路径汇聚时模型的稳定性。整个过程重复直至模型达到稳定。最终,新模型使用docker容器技术发布,这样的发布可由其它系统进行调用。

为满足机器学习工作流中的资源需求,netflix团队在meson中使用了诸如apache mesos这样的资源管理工具。mesos提供了对cpu、内存、存储及其它计算资源的任务隔离和抽象,并使用这些特性实现了mesos任务的扩展和容错。

meson中还包括调度器和执行器组件。

meson调度器: 该组件管理各个工作流的启动、流控制和运行时间。meson将内存和cpu需求发送给mesos,实现对mesos实际的资源调度的代理。一旦某个执行步骤已就绪可被调度,meson调度器选取由mesos提供的适用资源,并将任务发送给mesos主节点。

meson执行器: 它是对mesos执行器的定制,允许开发团队去维护与meson的通信通道。这样架构消息可被发送到meson调度器,对于长时间运行的任务是十分有用的。meson执行器也允许用户数据的传递。

mesos在调度meson任务时,它在下载了该任务所有的依赖后,在客户节点上启动一个meson执行器。当核心任务被执行时,执行器还关注诸如心跳信息发送、任务完成比例、状态消息等其它任务的情况。

meson还提供了基于scala的dsl,这允许创建用户定制的工作流。meson中还具有对原生spark的支持,这允许在meson中去监控spark任务的进程进度。meson还具备功能去重做失败的spark过程,或杀掉执行异常的spark任务。

netflix团队计划在未来几个月内开源meson,并构建meson相关的社区。

====================================分割线================================

本文转自d1net(转载)