
作者 | 肖長軍(穹谷)阿裡雲智能事業群技術專家
導讀:随着雲原生系統的演進,如何保障系統的穩定性受到很大的挑戰,混沌工程通過反脆弱思想,對系統注入故障,提前發現系統問題,提升系統的容錯能力。ChaosBlade 工具可以通過聲明式配置執行混沌實驗,簡單高效。本文将會重點介紹 ChaosBlade 以及雲原生相關的實驗場景實踐。
ChaosBlade 介紹
ChaosBlade 是阿裡巴巴開源的一款遵循混沌實驗模型的混沌實驗執行工具,具有場景豐富度高、簡單易用等特點,而且可以很友善的擴充實驗場景,開源後不久就被加入到 CNCF Landspace 中,成為主流的一款混沌工具。
實驗場景
目前支援的實驗場景如下:
- 基礎資源場景:CPU 負載、記憶體占用、磁盤 IO 負載、磁盤占用、網絡延遲、網絡丢包、網絡屏蔽、域名不可通路、shell 腳本篡改、殺程序、程序 Hang、機器重新開機等;
- 應用服務場景:支援 Java 應用和 C++ 應用内的實驗場景。Java 的場景元件豐富,例如支援 Dubbo、RocketMQ、HttpClient、Servlet、Druid等,而且支援編寫 Java 或 Groovy 腳本實作複雜的實驗場景;
- 容器服務場景:支援 Kubernetes 和 Docker 服務,包含 node、pod 和 container 三種資源的實驗場景,例如 Pod 網絡延遲、丢包等。
混沌實驗模型
以上所有的實驗場景都遵循混沌實驗模型,此模型共分為四層,包含:
- Target:實驗靶點。指實驗發生的元件,如容器、應用架構(Dubbo、Redis)等;
- Scope:實驗實施的範圍。指具體觸發實驗的機器或者叢集等;
- Matcher:實驗規則比對器。根據所配置的 Target,定義相關的實驗比對規則,可以配置多個。由于每個 Target 可能有各自特殊的比對條件,比如 RPC 領域的 Dubbo,可以根據服務提供者提供的服務和服務消費者調用的服務進行比對,緩存領域的 Redis,可以根據 set、get 操作進行比對;
- Action:指實驗模拟的具體場景,Target 不同,實施的場景也不一樣,比如磁盤,可以演練磁盤滿,磁盤 IO 讀寫高等。如果是應用,可以抽象出延遲、異常、傳回指定值(錯誤碼、大對象等)、參數篡改、重複調用等實驗場景。
比如一台 IP 是 10.0.0.1 機器上的應用,調用 com.example.HelloService[@1.0.0 ]() Dubbo 服務延遲 3s,基于此模型可以描述為對 Dubbo 元件(Target)進行實驗,實驗實施的範圍是 10.0.0.1 主機(Scope),調用 com.example.HelloService[@1.0.0 ]() (Matcher)服務延遲 3s(Action),對應的 chaosblade 指令為:
blade create dubbo delay --time 3000 --service com.example.HelloService --version 1.0.0
是以此模型很簡單清晰的表達出實驗場景,易于了解。下文中的雲原生實驗場景也基于此模型定義。
面向雲原生的實驗場景
實作方案
将混沌實驗場景按照上述的實驗模型,定義為 Kubernetes 中的資源,并通過自定義控制器來管理,可以通過 Yaml 配置或者直接執行 blade 指令執行。
ChaosBlade Operator 定義了資源控制器,并且會以 daemonset 的方式,在每個節點上部署一個 chaosblade-tool pod 來執行混沌實驗。不同的實驗場景内部實作方式不同,比如 Node 實驗場景,其上面部署的 chaosblade-tool 内部執行即可,而 Container 内的實驗場景,控制器會将 chaosblade 包拷貝到目标 Container 中執行。
使用方式
安裝必要元件
安裝 ChaosBlade Operator,可通過
位址下載下傳 chaosblade-operator-0.0.1.tgz,使用以下指令安裝:
helm install --namespace kube-system --name chaosblade-operator chaosblade-operator-0.0.1.tgz
安裝在 kube-system 指令空間下。ChaosBlade Operator 啟動後會在每個節點部署 chaosblade-tool Pod 和一個 chaosblade-operator Pod。可通過以下指令檢視安裝結果:
kubectl get pod -n kube-system -o wide | grep chaosblade
執行實驗
執行方式有兩種:
- 一種是通過配置 yaml 方式,使用 kubectl 執行;
- 另一種是直接使用 chaosblade 包中的 blade 指令執行。
下面以指定一台節點,做 CPU 負載 80% 實驗舉例。
yaml 配置方式
apiVersion: chaosblade.io/v1alpha1
kind: ChaosBlade
metadata:
name: cpu-load
spec:
experiments:
- scope: node
target: cpu
action: fullload
desc: "increase node cpu load by names"
matchers:
- name: names
value:
- "cn-hangzhou.192.168.0.205"
- name: cpu-percent
value:
- "80"
如上所示,配置好檔案後,儲存為 chaosblade_cpu_load.yaml,使用以下指令執行實驗場景:
kubectl apply -f chaosblade_cpu_load.yaml
可通過以下指令檢視每個實驗的執行狀态:
kubectl get blade cpu-load -o json
檢視
更多實驗場景配置事例。
blade 指令執行方式
下載下傳 chaosblade 工具包,解壓即可使用。還是上述例子,使用 blade 指令執行如下:
blade create k8s node-cpu fullload --names cn-hangzhou.192.168.0.205 --cpu-percent 80 --kubeconfig ~/.kube/config
使用 blade 指令執行,會傳回實驗的執行結果。
修改實驗
yaml 配置檔案的方式支援場景動态修改,比如将上述的 cpu 負載調整為 60%,則隻需将上述 value 的值從 80 改為 60 即可,例如:
apiVersion: chaosblade.io/v1alpha1
kind: ChaosBlade
metadata:
name: cpu-load
spec:
experiments:
- scope: node
target: cpu
action: load
desc: "cpu load"
flags:
- name: cpu-percent
value: "60"
- name: ip
value: 192.168.0.34
然後使用
kubeclt apply -f chaosblade_cpu_load.yaml
指令執行更新即可。
停止實驗
可以通過以下三種方式停止實驗:
根據實驗資源名停止
比如上述 cpu-load 場景,可以執行以下指令停止實驗:
kubectl delete chaosblade cpu-load
通過 yaml 配置檔案停止
指定上述建立好的 yaml 檔案進行删除,指令如下:
kubectl delete -f chaosblade_cpu_load.yaml
通過 blade 指令停止
此方式僅限使用 blade 建立的實驗,使用以下指令停止:
blade destroy <UID>
是執行 blade create 指令傳回的結果,如果忘記,可使用 blade status --type create 指令查詢。
解除安裝 chaosblade operator
執行
helm del --purge chaosblade-operator
解除安裝即可,将會停止全部實驗,删除所有建立的資源。
總結
ChaosBlade 基于混沌實驗模型,友好地将 Kubernetes 資源控制結合,部署簡單而且使用簡潔,實驗可控。除此之外 ChaosBlade 基于實驗模型實作了很多領域場景執行器,可以很友善的擴充實驗場景,可詳見附錄中的項目清單。
社群共建
ChaosBlade 自開源以來,共有近 30 多位貢獻者加入和很多企業的關注及使用,非常感謝各位。同時非常歡迎更多的人參與進來,使 ChaosBlade 變的更加強大,覆寫更多的場景,成為各個企業穩定的、通用的混沌工程工具。
貢獻的形式可以是提 bug、送出代碼、編寫文檔、補充單元測試、參與問題讨論等等。ChaosBlade 相信:開源世界中,任何幫助都是貢獻。
附錄
項目清單如下:
- ChaosBlade CLI(調用入口)
- ChaosBlade 實驗模型定義
- 基礎資源場景執行器
- Docker 場景執行器
- Kubernetes 場景執行器
- Java 應用場景執行器
- C++ 應用場景執行器
“ 阿裡巴巴雲原生微信公衆号(ID:Alicloudnative)關注微服務、Serverless、容器、Service Mesh等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐,做最懂雲原生開發者的技術公衆号。”