1 服务治理是什么
1.1 定义
按Anne Thomas Manes的定义是:企业为了确保事情顺利完成而实施的过程,包括最佳实践、架构原则、治理规程、规律以及其他决定性的因素。服务治理指的是用来管理SOA的采用和实现的过程。
1.2 服务治理针对的问题
服务治理中一些典型的问题是:
- 交付价值到利益相关者,这是投入与回报的问题
- 对标准和规则的遵从(这是和审计相关的)
- 变更管理:变更一个服务通常会引起不可预见的后果,因为服务的消费者对服务的提供者来说是不可知的。
- 服务质量的保证:弹性添加新服务需要对这些服务给予额外的关注。
1.3 服务治理包括的行为
服务治理的一些关键活动包括:
- 对开发新服务和升级现有服务的计划
- 管理服务的生命周期:确保升级服务不会影响目前的服务消费者
- 制定方针来限制服务行为:制定所有服务都要遵从的规则,确保服务的一致性
- 监控服务的性能:由于服务组合,服务停机和性能低下的后果是严重的。通过监控服务的性能和可用性,当问题出现的时候能马上采取应对措施。
- 管理由谁来调用服务、怎样调用服务
接下来看具体服务治理手段。
2 节点管理
2.1 服务调用失败原因
-
服务提供者故障
e.g. 服务器宕机、进程意外退出
-
网络故障
e.g. 服务提供者/注册中心/服务消费者中任意两者间网络故障
2.2 解决方案
2.2.1 注册中心主动摘除机制
要求服务提供者定时主动向注册中心汇报心跳,注册中心根据服务提供者节点最近一次汇报心跳的时间与上一次汇报心跳时间做比较。
如果超出一定时间,就认为服务提供者出现问题,继而把节点从服务列表中摘除,并把最近的可用服务节点列表推送给服务消费者。
2.2.2 服务消费者摘除机制
虽然上面方案可解决服务提供者节点故障,但若因注册中心与服务提供者间网络异常,最坏情况注册中心会把服务节点全部摘除,导致服务消费者没有可用服务节点调用,但服务提供者其实正常。
所以,将存活探测机制用在服务消费者这一端更合理,如果服务消费者调用服务提供者节点失败,就将该节点从内存中保存的可用服务提供者节点列表移除。
3 负载均衡
服务提供者节点一般以集群形式存在。对于服务消费者,在从服务列表中选取可用节点时,如果能让配置较高机器多承担一些流量,就能充分利用机器性能。
3.1 常用的负载均衡算法
3.1.1 随机
从可用的服务节点中随机选取一个节点。后端服务节点无论配置好坏,最终得到的调用量都差不多。
3.1.2 轮询
按固定权重,对可用服务节点进行轮询。如果所有服务节点的权重都是相同的,则每个节点的调用量也是差不多的。但可以给某些硬件配置较好的节点的权重调大些,这样的话就会得到更大的调用量,从而充分发挥其性能优势,提高整体调用的平均性能。
3.1.3 最少活跃调用
在服务消费者端内存动态维护同每个服务节点之间的连接数,当调用某个服务节点时,就给与这个服务节点之间的连接数加1,调用返回后,就给连接数减1。然后每次在选择服务节点时,根据内存里维护的连接数倒序排列,选择连接数最小的节点发起调用,也就是选择了调用量最小的服务节点,性能理论上也是最优的。
3.1.4 一致性Hash
相同参数的请求总是发到同一服务节点。当某一个服务节点出现故障时,原本发往该节点的请求,基于虚拟节点机制,平摊到其他节点上,不会引起剧烈变动。
这几种算法的实现难度也是逐步提升的,所以选择哪种节点选取的负载均衡算法要根据实际场景。如果后端服务节点的配置没有差异,同等调用量下性能也没有差异的话,选择随机或者轮询算法比较合适;如果后端服务节点存在比较明显的配置和性能差异,选择最少活跃调用算法比较合适。