走近伏羲，谈5000节点集群调度与性能优化

5k项目是飞天平台的里程碑，系统在规模、性能和容错方面都得到了飞跃式的发展，达到世界领先水平。伏羲作为飞天平台的分布式调度系统，能支持单集群5000节点，并发运行10000作业，30分钟完成100tb数据terasort，性能是当时yahoo ! 在sort benchmark上世界纪录的两倍。

“飞天”是阿里巴巴的云计算平台，其中的分布式调度系统被命名为“伏羲”（代码名称fuxi），名字来自我国古代神话人物。伏羲主要负责管理集群的机器资源和调度并发的计算任务，目前支持离线数据处理（dag job）和在线服务（service），为上层分布式应用如maxcompute/ oss / ots提供稳定、高效、安全的资源管理和任务调度服务，为阿里巴巴集团打造数据分享第一平台的目标提供了强大的计算引擎。

伏羲系统设计上采用m / s架构（如图1所示），系统有一个被称为“伏羲master”的集群控制中心，其余每台机器上会运行一个叫做“伏羲agent”的守护进程，守护进程除了管理节点上运行的任务外，还负责收集该节点上的资源使用情况，并将之汇报给控制中心。控制中心与伏羲agent之间使用心跳机制，以监测节点健康状态。当用户向伏羲master提交一个任务时，伏羲master会调度出一个可用节点在其上启动任务的主控进程appmaster，主控进程随后会向伏羲master提出资源请求，得到伏羲master分配的资源后，appmaster通知相应节点上的伏羲agent开始运行任务worker。伏羲是一个支持多任务并发的调度系统，控制中心伏羲master负责在多个任务之间仲裁，支持优先级、资源quota配额和抢占。

使用伏羲，用户可以运行常见的mapreduce任务，还可以托管在线服务，满足不同应用场景的需求。多用户可以共享集群，伏羲支持配置分组的资源配额，限定每个用户组可以使用的计算资源。紧急任务如重要数据报表可以提高任务优先级来优先使用计算资源。

在5k项目攻坚过程中，我们看到大型云计算平台从设计到实现每一步都可能存在性能“陷阱”，原因主要在三个方面：规模放大效应，当系统扩展到数千节点时，原本非瓶颈与规模成正比的环节，其影响会被放大；木桶效应，很多时候，系统中99 % 的地方都被优化过，完成剩下1 % 的优化看起来也只是“锦上添花”，然而那1 % 很可能就会成为影响系统性能的致命的瓶颈；长路径模块依赖，有些请求处理过程可能需要跨越多个模块（包括外部模块），而外部模块性能的不稳定性最终可能会影响到这个请求的处理性能和稳定性。5k项目是一场全方位战役，给伏羲系统带来规模、性能、稳定、运维等多方面的技术挑战，例如下面的性能“陷阱”:

通信消息ddos：在5000规模的集群中，不同进程之间的rpc请求数量会随规模猛增，网络中总请求数可达10000 qps，极易造成系统中单点进程的消息拥塞，从而导致请求处理严重超时。另外消息处理还存在队头阻塞（hol）问题。

关键函数ops：伏羲master是资源调度的中心节点，内部关键调度函数的ops必须达到极高的标准，否则就可能因为木桶效应影响到集群整体的调度性能。

故障恢复对外部模块依赖：伏羲master具有对用户透明的故障恢复功能（failover），其恢复过程依赖写在nuwa上的checkpoint（注：nuwa是飞天平台的协同系统，如名字服务）。因此，整体恢复速度会受到nuwa访问速度的影响。

我们做了大量伏羲优化工作来规避上述的性能“陷阱”，涉及到架构设计、实现细节和模块依赖，透过现象看本质，从最底层性能分析入手一步步找到瓶颈。下面结合具体的实战例子来分享优化过程。

通信性能优化

在5k项目初期阶段，我们测试大规模并发作业时发现，当作业数量超过1000时就容易出现运行时间变长的现象。分析监控曲线和日志，我们发现appmaster发给伏羲master的资源请求出现大量消息超时，appmaster迟迟拿不到资源，资源请求处理的延时很高。

消息从到达伏羲master进程到最终被处理返回的总时间主要包括在队列中等待时间和实际处理的时间，因此延时高无非是两个原因：消息处理本身的ops下降；消息堆积在待处理队列中未被及时处理。顺着这一思路，在通过profiling发现伏羲master资源调度关键函数并没有占到整个消息处理延时的大部分后，罪魁祸首就只剩下消息堆积了。在绘出了伏羲master中资源调度消息队列中消息堆积的曲线之后，果然发现当作业数量增加时，堆积的请求数量剧增（如图2所示），每一条请求的处理时间也较小规模时高出很多。

为什么在伏羲master队列中会堆积如此多的消息？在伏羲系统中，守护进程伏羲agent和appmaster都需要向负责资源调度的伏羲master查询资源状态，在通信策略上采用了定期polling的方式，缺省是每秒查询一次。采用polling通信方式主要基于其简单性，能比较鲁棒地应对网络故障，消息传递发送过程比较自然有规律。然而在5000规模集群中，这个策略必须进行调整优化，否则会造成伏羲master被大量请求“ddos攻击”而无法服务。

定位到消息堆积的问题后，我们立即对消息通信策略进行了流控，算法简单有效：发送端检查如果上次询问的请求结果已经返回，表明目前伏羲master请求处理较为顺畅，则间隔一个较短的时间后进行下一次询问。反之，如果上次询问的请求超时，说明伏羲master较忙（例如有任务释放大批资源待处理等），发送端则等待较长时间后再发送请求。通过这种自适应流控的通信策略调整，伏羲master消息堆积问题得到了有效解决。

此外，我们还解决了伏羲master消息的队头阻塞（hol）问题。appmaster需要与伏羲master通信获得资源调度结果，同时也与伏羲agent通信进行worker的启停。由于伏羲agent数量远大于伏羲master，在极端情况下，如果appmaster采用同一个线程池来处理这些消息，那么伏羲master消息会被前面大量的伏羲agent消息阻塞。我们将消息处理的全路径包括从发送到处理完毕等各个时间段进行了profling，结果印证了队头阻塞现象。当一个任务的worker较多时，appmaster需要与之通信的伏羲agent也会增多，观察到appmaster拿到资源的时间明显变长。针对队头阻塞问题，我们通信组件中加入了独立线程功能达到qos的效果，并应用在appmaster处理伏羲master消息的通信中。如图3所示，伏羲master的消息单独使用一个线程池，其余消息则共用另一个线程池。

关键函数优化

在5k项目中我们还重点关注系统中的关键函数性能，那里也可能藏着“陷阱”。伏羲master在调度资源时的一个关键操作是：比较一个节点的空闲资源能否满足该节点上排队等待的所有资源请求，从而决定该资源分配给哪个任务。这个函数的调用次数会与机器规模和请求数量成正比，因此其速度对伏羲master的调度ops有决定性影响。

伏羲在调度资源时支持多个维度，如内存、cpu、网络、磁盘等，所有的资源和请求都用一个多维的键值对表示，例如 {mem: 10, cpu: 50,net: 40,disk: 60}。因此，判断一个空闲资源能否满足一个资源请求的问题可以简单地抽象成多维向量的比较问题，例如r: [r1, r2, r3, r4] > q: [q1, q2, q3, q4]，其中1、2、3、4等数字表示各个维度，当且仅当r各个维度均大于q时才判断r > q。比较次数决定了这个操作的时间复杂度。最好情况下只需比较1次即可得出结果，如判断 [1, 10, 10, 10]大于 [2, 1, 1, 1]失败；最差需要d次（d为维度数），如判断 [10, 10, 10, 1]大于 [1, 1, 1, 10]需比较4次。在资源调度高频发生时，必须对这里的比较进行优化。

我们通过profiling分析了系统运行时资源空闲与请求情况，在资源充足时通常值最大的维度最难满足，因此在资源调度场景我们采用基于主键的优化算法：对每个资源请求的最大值所在维度定义为该向量的主键，当有空闲资源时首先比较主键维度是否满足请求，如果在主键上满足再比较其他维度。此外，对一个节点上排队等待所有请求的主键值再求一个最小值，空闲资源如果小于该最小值则无需再比较其他请求。通过主键算法，我们大大减少了资源调度时向量比较次数，伏羲master一次调度时间优化到几个毫秒。注意到资源请求提交后不会改变，因此计算主键的系统开销可以忽略不计。

伏羲master关键调度性能的优化增强了系统的规模扩展能力，用户利用飞天平台能管理更大规模的集群，容纳更多的计算任务，发挥出云计算平台的成本优势。

模块依赖性能优化

伏羲master支持故障恢复，在重启后进行故障恢复时需要从nuwa读取所有任务的描述文件（checkpoint）以继续运行用户任务。考虑到之前nuwa服务在服务器端对文件内容没有做持久化，伏羲master在读取了checkpoint后还会再写一次nuwa，这个回写操作性能依赖于nuwa模块。在5000节点的集群上，名字解析压力的显著增加导致nuwa在server的回写操作上也出现了性能下降问题，最终通过模块依赖传递到了伏羲master，从而影响了故障恢复的性能。经测试观察，一次checkpoint回写就消耗70秒，这大大降低了伏羲系统的可用性。

我们对伏羲master故障恢复进行了优化。首先，从伏羲master的角度，在故障恢复时刚刚读取的checkpoint内容在nuwa服务器端是不会发生改变的，因此读取checkpoint后没有必要回写到服务器端，只需要通知本地的nuwa agent让其代理即可，agent会负责服务器宕机重启时向服务器推送本地缓存的文件内容。于是与nuwa团队的同学合作，在nuwa api中新增加一个只写本地的接口，这样伏羲master规避了在故障恢复时回写checkpoint的性能风险。优化后，在5000节点集群和并发5000任务的测试规模下，一次故障恢复中处理checkpoint操作仅需18秒（主要时间在一次读取）。可见在分布式系统中，对外部模块的依赖哪怕只是一个rpc请求也可能是“性能陷阱”，在设计和实现时尽量避免出现在关键路径上。

故障恢复是分布式系统保证可用性必须具备的功能，经过优化，伏羲master的快速故障恢复增强了飞天计算平台的可用性和稳定性，屏蔽了硬件故障，使用户的使用过程不受影响。

工程经验

高质量代码没有捷径可走，也不能只靠制度流程，唯有认真二字：作者认真、reviewer认真、测试认真。

任何一个item，无论是解决bug还是新增feature，都必须在动手写代码前讨论清楚方案，code review不能代替方案讨论。在讨论时作者需要回答两个问题：这个解决方法真的可行吗？副作用是什么？这些讨论需要记录在wiki或者bugfree等工具上进行跟踪。

小步快跑，尽早提交code review，很多问题在这个阶段就能发现，不必等到测试中发现，代价大。

代码reviewer对item有一半的责任，因此review时不是简单过一遍字面完事的。我采用的checklist有：是否准确反映了之前讨论好的方案；是否存在死锁、“性能陷阱”；模块化封装是否足够；函数名变量名是否规范，日志格式是否规范；注释是否足够。一段代码review迭代10次左右是很常见的。

一定要有针对性的测试验证。

代码提交时关联相应的bug和review id，便于后续追溯。

以上和大家分享了5k项目的一些实践经验，伏羲系统在5k项目中还做了很多有意义的系统优化和技术探索，参与其中收获颇丰。性能是功能的一部分，是系统生死线而非锦上花。5k项目只是阿里云计算平台技术发展的一个开始，未来会在更大规模和更丰富计算模型等方面进一步发展，为用户构筑可用可靠的云计算引擎，进一步降低成本，挖掘数据价值。

走近伏羲，谈5000节点集群调度与性能优化

继续阅读

[Cloud Networking Notes] Management and sharing of network infrastructure in cloud data centersTargets and MotivationsVL2 Design

在Google Earth Engine（GEE）中利用人口数据进行分析

使用Learner Lab - 如何启动、管理和监控Amazon EC2实例以及调整其大小。使用Learner Lab - 如何启动、管理和监控Amazon EC2实例以及调整其大小。

RAID磁盘阵列详细介绍

我的微博生涯正式开始了！！！

高新技术企业有哪些税收优惠政策？

2023年【申报高企】常见十大问题解答！

高企申请不能掉入的坑

系统集成资质取消后，偷偷崛起的ICSCE资质(信息化能力和信用评价资质）前言一、ICSCE是什么二、信息化能力和信用评价的级别及证书有效期三、ICSCE的价值和意义四、信息化能力和信用评价的申报基本条件

golang技术随笔（二）理解goroutine进程、线程和协程浅析goroutinego运行时调度参考资料

虚拟主机会影响到SEO吗

解读2008年网络技术热词之云计算

《eWEEK》：09年5大科技发展趋势云计算居首

云计算面试题及答案，云计算主要就业岗位

云计算面试题——mysql/存储引擎/备份

云计算面试题——文件/权限/分区/软件包管理