天天看点

故障注入与服务网格:测试和验证的利器

作者:opendotnet

背景

故障注入

故障注入技术最初是在航空航天领域中开发的,用于模拟和测试飞机、导弹等复杂系统的可靠性。后来,这项技术逐渐被应用到其他领域,包括计算机软件、汽车、医疗设备等。

随着互联网和软件系统的快速发展,复杂度和规模不断扩大。因此,系统中的故障和异常在所难免。为了确保系统在遇到故障时能够保持稳定运行并尽快恢复,开发人员和运维团队需要提前预测和处理潜在的故障。故障注入慢慢地在计算机软件中得到应用。

故障注入的重要性在于它可以帮助开发人员更好地理解系统的行为,并确定哪些部分可能存在缺陷。通过模拟各种可能的故障情况,开发人员可以评估系统在不同条件下的响应能力,并将这些信息用于改进软件设计和实现。

故障注入与服务网格:测试和验证的利器

故障注入的功能

  • • 使开发和测试人员方便地进行可靠性测试,发现潜在的问题并优化系统设计,进而提升系统的健壮性。
  • • 帮助验证系统的异常和故障处理机制是否有效,确保系统在遇到故障时能够正确地执行故障处理策略。
  • • 服务降级是在系统发生故障时,暂时关闭部分功能以确保整体的可用性。故障注入可用于评估服务降级策略,通过模拟故障场景检验服务降级的实际表现。

服务网格

服务网格是一种架构模式,用于处理分布式系统中的服务间通信和服务治理问题。服务网格通常由一组网络代理和服务间通信协议组成,用于管理和控制服务之间的通信。服务网格可以提供诸如服务发现、负载均衡、安全认证、流量控制、故障恢复等功能,以帮助开发人员和运维人员管理分布式系统的复杂性和可靠性。

Flomesh 服务网格

Flomesh 服务网格使用可编程代理 Pipy[1] 为核心提供东西、南北向的流量管理和丰富的服务治理能力。通过基于 L7 的流量管理能力,突破计算环境间的网络隔离,建立一个虚拟的平面网络,使不同计算环境中应用可以互相通信,实现覆盖多集群的“大网格”。

故障注入与服务网格

服务网格中的代理对服务的流量进行拦截,可以实现流量的控制。拦截到服务流量时,可以通过注入故障或者异常来测试服务的容错性和健壮性。比如可以通过服务网格来模拟服务的延迟、错误响应等等。

当我们使用传统的故障注入时,通常需要在应用程序中嵌入特定的代码或者 SDK 来实现对应用程序行为的修改和控制,比如 Chaos Monkey[2]。而由于服务网格的网络代理与应用本身的天然解耦合,可以实现无侵入的故障注入。这种无侵入的故障注入不仅可以减少对应用程序的影响,还可以提高故障注入的灵活性和可靠性。

今天就为大家来介绍如何使用 Flomesh 服务网格的故障注入功能。

Flomesh 服务网格的故障注入

Flomesh 服务网格秉持着简单、易用的设计原则,提供满足用户的最小功能集。故障注入功能并未包含在其中,但通过灵活的 插件扩展功能[3] 可以轻松地为服务网格扩展新的功能,这个在之前的文章 使用插件扩展服务网格 中也有过详细介绍。

这下面的演示中,我们将使用 故障注入插件[4] 实现对目标服务的故障注入。首先我们看一下可注入的故障类型:

  • • 延迟响应:在服务调用时,为一定比例的响应人为地加入的延迟,模拟目标服务的不稳定来测试服务的容错能力、优化负载均衡策略等。
  • • 终止响应:模拟服务响应异常终止的情况,从而测试系统的容错性和健壮性。比如验证重试机制、降级能力等等。

功能配置

  • config

    故障类型及配置
    • httpStatus

      :终止响应时的响应状态码,比如

      400

      501

      503

    • percentage.value

      :终止的百分比,

      0.5

      表示对

      50%

      的响应会被终止
    • fixedDelay

      :设置延迟的时长,

      1s

      表示为响应假如 1 秒钟的延迟
    • percentage.value

      :延迟的百分比,

      0.5

      表示对

      50%

      的响应注入延迟
    • delay

      延迟
    • abort

      终止
  • plugin:

    表示这个配置是插件

    http-fault-injection

    的配置
  • destinationRefs

    : 表示配置生效的负载。比如命名空间

    pipy

    下的 Service

    pipy-ok

kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
 name: http-fault-injection-config
 namespace: pipy
spec:
 config:
 delay:
 percentage:
 value: 0.5
 fixedDelay: 1s
 abort:
 percentage:
 value: 0.5
 httpStatus: 400
 plugin: http-fault-injection
 destinationRefs:
 - kind: Service
 name: pipy-ok
 namespace: pipy           

演示

创建集群

export INSTALL_K3S_VERSION=v1.23.8+k3s2
curl -sfL https://get.k3s.io | sh -s - --disable traefik --disable servicelb --write-kubeconfig-mode 644 --write-kubeconfig ~/.kube/config           

安装服务网格

下载 CLI。

system=$(uname -s | tr [:upper:] [:lower:]) 
arch=$(dpkg --print-architecture) 
release=v1.3.3 
curl -L https://github.com/flomesh-io/osm-edge/releases/download/${release}/osm-edge-${release}-${system}-${arch}.tar.gz | tar -vxzf - 
./${system}-${arch}/osm version 
cp ./${system}-${arch}/osm /usr/local/bin/           

安装服务网格。

osm install           

部署示例应用

kubectl create namespace curl
osm namespace add curl
kubectl apply -n curl -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/curl.yaml

kubectl create namespace pipy
osm namespace add pipy
kubectl apply -n pipy -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/pipy-ok.pipy.yaml

# Wait for pods to be up and ready

sleep 2
kubectl wait --for=condition=ready pod -n curl -l app=curl --timeout=180s
kubectl wait --for=condition=ready pod -n pipy -l app=pipy-ok -l version=v1 --timeout=180s
kubectl wait --for=condition=ready pod -n pipy -l app=pipy-ok -l version=v2 --timeout=180s           

验证服务访问。

curl_client="$(kubectl get pod -n curl -l app=curl -o jsonpath='{.items[0].metadata.name}')"

kubectl exec ${curl_client} -n curl -c curl -- curl -ksi http://pipy-ok.pipy:8080 ; echo "";            

你将会看到如下的响应,多次请求可以发现 v1 和 v2 版本的服务轮流响应。

HTTP/1.1 200 OK
content-length: 20
connection: keep-alive

Hi, I am PIPY-OK v1!           

启用插件特性

默认情况下,服务网格是没有开启插件特性的。可以通过下面的命令开启:

kubectl patch meshconfig osm-mesh-config -n osm-system -p '{"spec":{"featureFlags":{"enablePluginPolicy":true}}}' --type=merge           

故障注入插件

插件的应用包含了两个部分:

  • • 声明插件:也就是创建插件的过程。插件声明后,才可以被其他资源引用。
  • • 配置插件链:服务治理的功能分布于流量处理的各个阶段,比如 4 层的处理、7 层的路由、负载均衡等等。插件链则是对插件进行编排,指定其工作的阶段以及作用的资源。

声明插件

执行下面的声明插件。插件是使用 PipyJS[5] 开发的,对故障注入插件感兴趣的同学可以访问 Github 浏览 源码[6]。

kubectl apply -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/fault-injection.yaml           

配置插件链

插件链

http-fault-injection-chain

  • metadata.name

    :插件链资源名称

    http-fault-injection-chain

  • spec.chains

    • name

      :所处的插件链名称,4 个插件链之一,这里是

      inbound-http

      也就是出站流量的 HTTP 协议处理阶段。
    • plugins

      :要插入到插件链的插件列表,这里将

      http-fault-injection

      插入到插件链中。
  • spec.selectors

    :插件链作用的目标,使用的是 Kubernetes 标签选择器[7] 方案。
    • podSelector

      :pod 选择器,选择标签

      app=pipy-ok

      的 pod。
    • namespaceSelector

      :命名空间选择器,选择命名空间被网格纳管的命名空间,即

      openservicemesh.io/monitored-by=osm

kubectl apply -f - <<EOF
kind: PluginChain
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
 name: http-fault-injection-chain
 namespace: pipy
spec:
 chains:
 - name: inbound-http
 plugins:
 - http-fault-injection
 selectors:
 podSelector:
 matchLabels:
 app: pipy-ok
 matchExpressions:
 - key: app
 operator: In
 values: ["pipy-ok"]
 namespaceSelector:
 matchExpressions:
 - key: openservicemesh.io/monitored-by
 operator: In
 values: ["osm"]
EOF
           

此时,我们执行前面命令进行验证,可以发现服务扔可正常访问。这是因为还缺少故障注入的配置。

配置注入故障

注入延迟

这里我们配置为

50%

的响应加上

2s

的延迟。

kubectl apply -n pipy -f - <<EOF
kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
 name: http-fault-injection-config
 namespace: pipy
spec:
 config:
 delay:
 percentage:
 value: 0.5
 fixedDelay: 2s
 plugin: http-fault-injection
 destinationRefs:
 - kind: Service
 name: pipy-ok
 namespace: pipy
EOF           

为了方便看到效果请求前后我们打印下当前的时间。多次请求后可以发现一半的请求响应时间超过 5s。

date; kubectl exec ${curl_client} -n curl -c curl -- curl -ksi http://pipy-ok.pipy:8080 ; echo ""; date
Mon Apr 3 11:21:58 UTC 2023
HTTP/1.1 200 OK
content-length: 20
connection: keep-alive

Hi, I am PIPY-OK v1!
Mon Apr 3 11:22:00 UTC 2023           

终结响应

接下来我们修改插件配置,去掉

delay

的配置,为

abort

添加配置:50% 的情况下返回

500

的响应。

kubectl apply -n pipy -f - <<EOF
kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
 name: http-fault-injection-config
 namespace: pipy
spec:
 config:
 abort:
 percentage:
 value: 0.5
 httpStatus: 500
 plugin: http-fault-injection
 destinationRefs:
 - kind: Service
 name: pipy-ok
 namespace: pipy
EOF           

经过验证,50% 的响应会返回状态码

500

HTTP/1.1 500 Internal Server Error
content-length: 0
connection: keep-alive           

总结

故障注入技术作为一种重要的测试方法,在软件工程中已经得到广泛的应用。随着云计算和微服务架构的普及,故障注入在分布式系统和服务网格中的应用也越来越受到重视。结合服务网格技术,故障注入可以做到更加的自动化和智能化,良好兼容更多的应用场景。

通过扩展故障注入功能,我们再一次体验了可扩展服务网络的灵活性。功能可扩展的服务网格通过更强的可定制性、更好更灵活的扩展性,可以满足用户多元的需求、复杂的场景。

引用链接

[1]

Pipy: https://github.com/flomesh-io/pipy

[2]

Chaos Monkey: https://github.com/Netflix/chaosmonkey

[3]

插件扩展功能: https://osm-edge-docs.flomesh.io/docs/guides/operating/plugins/

[4]

故障注入插件: https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/fault-injection.yaml

[5]

PipyJS: https://flomesh.io/pipy/docs/en/reference/pjs

[6]

源码: https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/fault-injection.yaml

[7]

Kubernetes 标签选择器: https://kubernetes.io/docs/concepts/overview/working-with-objects/labels/