返回首页 回到顶部

故障注入与服务网格:测试和验证的利器

824人浏览   2024-02-22 08:50:14

背景

故障注入

故障注入技术最初是在航空航天领域中开发的,用于模拟和测试飞机、导弹等复杂系统的可靠性。后来,这项技术逐渐被应用到其他领域,包括计算机软件、汽车、医疗设备等。

随着互联网和软件系统的快速发展,复杂度和规模不断扩大。因此,系统中的故障和异常在所难免。为了确保系统在遇到故障时能够保持稳定运行并尽快恢复,开发人员和运维团队需要提前预测和处理潜在的故障。故障注入慢慢地在计算机软件中得到应用。

故障注入的重要性在于它可以帮助开发人员更好地理解系统的行为,并确定哪些部分可能存在缺陷。通过模拟各种可能的故障情况,开发人员可以评估系统在不同条件下的响应能力,并将这些信息用于改进软件设计和实现。

故障注入的功能

  • • 使开发和测试人员方便地进行可靠性测试,发现潜在的问题并优化系统设计,进而提升系统的健壮性。

  • • 帮助验证系统的异常和故障处理机制是否有效,确保系统在遇到故障时能够正确地执行故障处理策略。

  • • 服务降级是在系统发生故障时,暂时关闭部分功能以确保整体的可用性。故障注入可用于评估服务降级策略,通过模拟故障场景检验服务降级的实际表现。

服务网格

服务网格是一种架构模式,用于处理分布式系统中的服务间通信和服务治理问题。服务网格通常由一组网络代理和服务间通信协议组成,用于管理和控制服务之间的通信。服务网格可以提供诸如服务发现、负载均衡、安全认证、流量控制、故障恢复等功能,以帮助开发人员和运维人员管理分布式系统的复杂性和可靠性。

Flomesh 服务网格

Flomesh 服务网格使用可编程代理 Pipy[1] 为核心提供东西、南北向的流量管理和丰富的服务治理能力。通过基于 L7 的流量管理能力,突破计算环境间的网络隔离,建立一个虚拟的平面网络,使不同计算环境中应用可以互相通信,实现覆盖多集群的“大网格”。

故障注入与服务网格

服务网格中的代理对服务的流量进行拦截,可以实现流量的控制。拦截到服务流量时,可以通过注入故障或者异常来测试服务的容错性和健壮性。比如可以通过服务网格来模拟服务的延迟、错误响应等等。

当我们使用传统的故障注入时,通常需要在应用程序中嵌入特定的代码或者 SDK 来实现对应用程序行为的修改和控制,比如 Chaos Monkey[2]。而由于服务网格的网络代理与应用本身的天然解耦合,可以实现无侵入的故障注入。这种无侵入的故障注入不仅可以减少对应用程序的影响,还可以提高故障注入的灵活性和可靠性。

今天就为大家来介绍如何使用 Flomesh 服务网格的故障注入功能。

Flomesh 服务网格的故障注入

Flomesh 服务网格秉持着简单、易用的设计原则,提供满足用户的最小功能集。故障注入功能并未包含在其中,但通过灵活的 插件扩展功能[3] 可以轻松地为服务网格扩展新的功能,这个在之前的文章 使用插件扩展服务网格 中也有过详细介绍。

这下面的演示中,我们将使用 故障注入插件[4] 实现对目标服务的故障注入。首先我们看一下可注入的故障类型:

  • • 延迟响应:在服务调用时,为一定比例的响应人为地加入的延迟,模拟目标服务的不稳定来测试服务的容错能力、优化负载均衡策略等。

  • • 终止响应:模拟服务响应异常终止的情况,从而测试系统的容错性和健壮性。比如验证重试机制、降级能力等等。

功能配置

  • config 故障类型及配置

    • httpStatus:终止响应时的响应状态码,比如 400501503

    • percentage.value:终止的百分比,0.5 表示对 50% 的响应会被终止

    • fixedDelay:设置延迟的时长,1s 表示为响应假如 1 秒钟的延迟

    • percentage.value:延迟的百分比,0.5 表示对 50% 的响应注入延迟

    • delay 延迟

    • abort 终止

  • plugin: 表示这个配置是插件 http-fault-injection 的配置

  • destinationRefs: 表示配置生效的负载。比如命名空间 pipy 下的 Service pipy-ok

kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
name: http-fault-injection-config
namespace: pipy
spec:
config:
delay:
percentage:
value: 0.5
fixedDelay: 1s
abort:
percentage:
value: 0.5
httpStatus: 400
plugin: http-fault-injection
destinationRefs:
- kind: Service
name: pipy-ok
namespace: pipy

演示

创建集群

export INSTALL_K3S_VERSION=v1.23.8+k3s2
curl -sfL https://static1.haohuo.net/uploads/images/1951428/1951428_get.k3s.io | sh -s - --disable traefik --disable servicelb --write-kubeconfig-mode 644 --write-kubeconfig ~/.kube/config

安装服务网格

下载 CLI。

system=$(uname -s | tr [:upper:] [:lower:]) 
arch=$(dpkg --print-architecture)
release=v1.3.3
curl -L https://github.com/flomesh-io/osm-edge/releases/download/${release}/osm-edge-${release}-${system}-${arch}.tar.gz | tar -vxzf -
./${system}-${arch}/osm version
cp ./${system}-${arch}/osm /usr/local/bin/

安装服务网格。

osm install

部署示例应用

kubectl create namespace curl
osm namespace add curl
kubectl apply -n curl -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/curl.yaml

kubectl create namespace pipy
osm namespace add pipy
kubectl apply -n pipy -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/pipy-ok.pipy.yaml

#
Wait for pods to be up and ready

sleep 2
kubectl wait --for=condition=ready pod -n curl -l app=curl --timeout=180s
kubectl wait --for=condition=ready pod -n pipy -l app=pipy-ok -l version=v1 --timeout=180s
kubectl wait --for=condition=ready pod -n pipy -l app=pipy-ok -l version=v2 --timeout=180s

验证服务访问。

curl_client="$(kubectl get pod -n curl -l app=curl -o jsonpath='{.items[0].metadata.name}')"

kubectl exec ${curl_client} -n curl -c curl -- curl -ksi http://pipy-ok.pipy:8080 ; echo "";

你将会看到如下的响应,多次请求可以发现 v1 和 v2 版本的服务轮流响应。

HTTP/1.1 200 OK
content-length: 20
connection: keep-alive

Hi, I am PIPY-OK v1!

启用插件特性

默认情况下,服务网格是没有开启插件特性的。可以通过下面的命令开启:

kubectl patch meshconfig osm-mesh-config -n osm-system -p '{"spec":{"featureFlags":{"enablePluginPolicy":true}}}' --type=merge

故障注入插件

插件的应用包含了两个部分:

  • • 声明插件:也就是创建插件的过程。插件声明后,才可以被其他资源引用。

  • • 配置插件链:服务治理的功能分布于流量处理的各个阶段,比如 4 层的处理、7 层的路由、负载均衡等等。插件链则是对插件进行编排,指定其工作的阶段以及作用的资源。

声明插件

执行下面的声明插件。插件是使用 PipyJS[5] 开发的,对故障注入插件感兴趣的同学可以访问 Github 浏览 源码[6]

kubectl apply -f https://raw.githubusercontent.com/flomesh-io/osm-edge-docs/release-v1.3/manifests/samples/plugins/fault-injection.yaml

配置插件链

插件链 http-fault-injection-chain

  • metadata.name:插件链资源名称
    http-fault-injection-chain

  • spec.chains

    • name:所处的插件链名称,4 个插件链之一,这里是 inbound-http 也就是出站流量的 HTTP 协议处理阶段。

    • plugins:要插入到插件链的插件列表,这里将 http-fault-injection 插入到插件链中。

  • spec.selectors:插件链作用的目标,使用的是 Kubernetes 标签选择器[7] 方案。

    • podSelector:pod 选择器,选择标签 app=pipy-ok 的 pod。

    • namespaceSelector:命名空间选择器,选择命名空间被网格纳管的命名空间,即
      openservicemesh.io/monitored-by=osm

kubectl apply -f - <<EOF
kind: PluginChain
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
name: http-fault-injection-chain
namespace: pipy
spec:
chains:
- name: inbound-http
plugins:
- http-fault-injection
selectors:
podSelector:
matchLabels:
app: pipy-ok
matchExpressions:
- key: app
operator: In
values: ["pipy-ok"]
namespaceSelector:
matchExpressions:
- key: openservicemesh.io/monitored-by
operator: In
values: ["osm"]
EOF

此时,我们执行前面命令进行验证,可以发现服务扔可正常访问。这是因为还缺少故障注入的配置。

配置注入故障

注入延迟

这里我们配置为 50% 的响应加上 2s 的延迟。

kubectl apply -n pipy -f - <<EOF
kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
name: http-fault-injection-config
namespace: pipy
spec:
config:
delay:
percentage:
value: 0.5
fixedDelay: 2s
plugin: http-fault-injection
destinationRefs:
- kind: Service
name: pipy-ok
namespace: pipy
EOF

为了方便看到效果请求前后我们打印下当前的时间。多次请求后可以发现一半的请求响应时间超过 5s。

date; kubectl exec ${curl_client} -n curl -c curl -- curl -ksi http://pipy-ok.pipy:8080 ; echo ""; date
Mon Apr 3 11:21:58 UTC 2023
HTTP/1.1 200 OK
content-length: 20
connection: keep-alive

Hi, I am PIPY-OK v1!
Mon Apr 3 11:22:00 UTC 2023

终结响应

接下来我们修改插件配置,去掉 delay 的配置,为 abort 添加配置:50% 的情况下返回 500 的响应。

kubectl apply -n pipy -f - <<EOF
kind: PluginConfig
apiVersion: plugin.flomesh.io/v1alpha1
metadata:
name: http-fault-injection-config
namespace: pipy
spec:
config:
abort:
percentage:
value: 0.5
httpStatus: 500
plugin: http-fault-injection
destinationRefs:
- kind: Service
name: pipy-ok
namespace: pipy
EOF

经过验证,50% 的响应会返回状态码 500

HTTP/1.1 500 Internal Server Error
content-length: 0
connection: keep-alive

总结

故障注入技术作为一种重要的测试方法,在软件工程中已经得到广泛的应用。随着云计算和微服务架构的普及,故障注入在分布式系统和服务网格中的应用也越来越受到重视。结合服务网格技术,故障注入可以做到更加的自动化和智能化,良好兼容更多的应用场景。

通过扩展故障注入功能,我们再一次体验了可扩展服务网络的灵活性。功能可扩展的服务网格通过更强的可定制性、更好更灵活的扩展性,可以满足用户多元的需求、复杂的场景。