天天看點

擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力

阿裡雲容器服務Kubernetes(簡稱ACK)支援一鍵部署Istio,可以參考 文檔

在ACK上部署使用Isito。Istio on ACK提供了豐富的監控能力,為網格中的服務收集遙測資料,其中Mixer是負責提供政策控制和遙測收集的Istio元件。使用Prometheus進行監控是Istio提供的監控能力之一。

告警能力在Prometheus的架構中被劃分成兩個獨立的部分:Prometheus負責産生告警,而Alertmanager負責告警産生後的後續處理。如下所示,通過在Prometheus中定義告警規則,Prometheus會周期性的對告警規則進行計算,如果滿足告警觸發條件就會向Alertmanager發送告警資訊。

擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力

Alertmanager作為一個獨立的元件,負責接收并處理來自Prometheus Server(也可以是其它的用戶端程式)的告警資訊。Alertmanager可以對這些告警資訊進行進一步的處理,比如當接收到大量重複告警時能夠消除重複的告警資訊,同時對告警資訊進行分組并且路由到正确的通知方,Prometheus内置了對郵件、Slack等多種通知方式的支援,同時還支援與Webhook的內建,以支援更多定制化的場景。例如,完全可以通過Webhook與釘釘機器人進行內建,進而通過釘釘接收告警資訊。同時AlertManager還提供了靜默和告警抑制機制來對告警通知行為進行優化。

以下介紹如何擴充AlertManager內建釘釘,并通過AlertManager幫助實作Istio on ACK在可觀測性監控方面的能力。

通過Webhook內建釘釘

    1. 單擊釘釘群右上角群設定圖示,進入群設定頁面。單擊群機器人,進入群機器人頁面,選擇需要添加的機器人。此處選擇自定義機器人。
    1. 在機器人詳情頁面,單擊添加,進入添加機器人頁面。
      擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力
    1. 填寫完配置群機器人資訊後,單擊完成添加。
    1. 單擊複制,複制webhook位址。
      擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力

部署AlertManager并對接釘釘

    1. 登入容器服務管理控制台。 在Kubernetes菜單下,單擊左側導航欄中的應用 > 無狀态,進入 無狀态(Deployment)頁面。
    1. 選擇目标叢集,命名空間選為istio-system,單擊右上角使用模闆建立。
    1. 根據以下資訊配置模闆,完成後單擊建立。
配置 說明
叢集 選擇目标叢集。
命名空間 選擇資源對象所屬的命名空間,預設是 default。此處選擇istio-system。
示例模闆 此處選擇自定義。
模闆 填寫以下自定義内容。

自定義YAML内容如下:

apiVersion: v1
kind: Service
metadata:
  name: dingtalkservice
  labels:
    app: dingtalkservice
    service: dingtalkservice
spec:
  ports:
  - port: 8060
    name: http
  selector:
    app: dingtalkservice
---
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: dingtalkservice
  labels:
    app: dingtalkservice
    version: v1
spec:
  replicas: 1
  template:
    metadata:
      labels:
        app: dingtalkservice
        version: v1
    spec:
      containers:
      - name: prometheus-webhook-dingtalk
        image: timonwong/prometheus-webhook-dingtalk
        imagePullPolicy: IfNotPresent
        args:
        - --ding.profile=webhook1={替換為上述步驟中複制的webhook位址}
        ports:
        - containerPort: 8060
---
kind: ConfigMap
apiVersion: v1
metadata:
  name: alertmanager
data:
  config.yml: |-
    global:
      resolve_timeout: 5m
    templates:
    - '/etc/alertmanager-templates/*.tmpl'
    route:
      group_by: ['alertname', 'cluster', 'service']
      group_wait: 30s
      group_interval: 5m
      repeat_interval: 1m
      receiver: webhook_alert 
      routes:
      - match:
          severity: info
        receiver: webhook_alert
      - match:
          severity: warning
        receiver: webhook_alert
    receivers:
    - name: webhook_alert
      webhook_configs:
      - url: 'http://dingtalkservice:8060/dingtalk/webhook1/send'
        send_resolved: false
---
apiVersion: v1
kind: Service
metadata:
  annotations:
    prometheus.io/scrape: 'true'
    prometheus.io/path: '/metrics'
  labels:
    name: alertmanager
  name: alertmanager
spec:
  selector:
    app: alertmanager
  type: ClusterIP
  ports:
  - name: alertmanager
    protocol: TCP
    port: 9093
    targetPort: 9093
---
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: alertmanager
spec:
  replicas: 1
  selector:
    matchLabels:
      app: alertmanager
  template:
    metadata:
      name: alertmanager
      labels:
        app: alertmanager
    spec:
      containers:
      - name: alertmanager
        image: prom/alertmanager:v0.15.0
        args:
          - '--config.file=/etc/alertmanager/config.yml'
          - '--storage.path=/alertmanager'
        ports:
        - name: alertmanager
          containerPort: 9093
        volumeMounts:
        - name: config-volume
          mountPath: /etc/alertmanager
        - name: alertmanager
          mountPath: /alertmanager
      serviceAccountName: prometheus
      volumes:
      - name: config-volume
        configMap:
          name: alertmanager
      - name: alertmanager
        emptyDir: {}               
    1. 建立成功之後,單擊左側導航欄中的應用 > 容器組,選擇相應的叢集和命名空間istio-system, 可以看到如下類似的運作中的alertmanager和dingtalkservice容器組。
      擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力

建立Prometheus告警規則配置項

    1. 登入 容器服務管理控制台。在Kubernetes菜單下,單擊左側導航欄中的應用配置 > 配置項,選擇相應的叢集與命名空間istio-system,點選右上角的建立按鈕,進入建立配置項頁面。
    1. 輸入配置項名稱:prom-rules1。
    1. 添加配置項,名稱為rule1.yaml,值為如下内容:
groups:
- name: fake
  rules:
    - alert: rules-alert
      expr: |
        histogram_quantile(0.99, sum by(source_app, source_version, destination_service, destination_version, le) (irate(istio_request_duration_seconds_bucket[1m])) ) > 3
      for: 1m
      labels:
        alertname: "request-duration-3"
      annotations:
        summary: "Request duration gt 3"
        from: "{{ $labels.source_app }}:{{ $labels.source_version }}"
        to: "{{ $labels.destination_service }}:{{ $labels.destination_version }}"           

該規則描述過去1分鐘内99%請求時延超過3s時會發出告警。

    1. 點選确定按鈕。

內建AlertManager到Istio中

在ACK上部署Isito。

預設部署中的Prometheus服務沒有對接AlertManager,需要按照如下步驟進行配置。

    1. 登入容器服務管理控制台。
    1. 在 Kubernetes 菜單下,單擊左側導航欄的應用 > 釋出,進入釋出頁面。
    1. 單擊Helm,選擇所需的叢集,選擇待更新的Istio,單擊操作列的更新。
      擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力
    1. 在彈出的對話框中,對Istio的Prometheus參數進行修改:

      | 配置 | 說明 |

enabled true或者false,表示是否啟用Prometheus 收集度量日志。預設情況下啟用,即值為true。
replicaCount prometheus容器組的副本數,預設值為1。
persist true或者false,表示是否啟用持久化存儲。設定為true時,必須指定TSDB執行個體位址。
tsdbEndpoint TSDB執行個體位址,啟用持久化存儲時必須指定。
retention 預設的資料保留時間,8760h0m0s即為24*365小時,即1年
scrapeInterval 全局預設抓取時間間隔,預設為15s
prometheusRulesConfigMap 告警規則配置項的名稱
alerting 配置對接的AlertManager服務,配置如下代碼所示
alerting:
    alertmanagers:
    - static_configs:
      - targets: ["alertmanager:9093"]           
擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力
    1. 修改完畢之後,單擊更新。

告警規則觸發驗證

在Prometheus控制台上,點選Alerts頁簽,可以看到如下類似内容。

擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力

同時,相應的釘釘群也會收到類似的告警資訊,如下所示。

擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力

總結

在阿裡雲Kubernetes容器服務基礎之上,快速搭建一套用于連接配接、管理以及安全化微服務的開放平台Istio,為應用引入和配置多個相關服務。使用Prometheus進行監控是Istio提供的監控能力之一,通過擴充AlertManager內建釘釘助力Istio on ACK可觀測性監控能力。