天天看點

Prometheus監控node_exporter的告警規則

針對磁盤CPU,IO ,磁盤使用、記憶體使用、TCP、網絡流量配置監控告警

groups:

    - name: 主機狀态-監控告警

      rules:

      - alert: 主機狀态

        expr: up == 0

        for: 1m

        labels:

          status: 非常嚴重

        annotations:

          summary: "{{$labels.instance}}:伺服器當機"

          description: "{{$labels.instance}}:伺服器延時超過5分鐘"

      - alert: CPU使用情況

        expr: 100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100) > 60

          status: 一般告警

          summary: "{{$labels.mountpoint}} CPU使用率過高!"

          description: "{{$labels.mountpoint }} CPU使用大于60%(目前使用:{{$value}}%)"

      - alert: 記憶體使用

        expr: 100 -(node_memory_MemTotal_bytes -node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes ) / node_memory_MemTotal_bytes * 100> 80

          status: 嚴重告警

          summary: "{{$labels.mountpoint}} 記憶體使用率過高!"

          description: "{{$labels.mountpoint }} 記憶體使用大于80%(目前使用:{{$value}}%)"

      - alert: IO性能

        expr: 100-(avg(irate(node_disk_io_time_seconds_total[1m])) by(instance)* 100) < 60

          summary: "{{$labels.mountpoint}} 流入磁盤IO使用率過高!"

          description: "{{$labels.mountpoint }} 流入磁盤IO大于60%(目前使用:{{$value}})"

      - alert: 網絡

        expr: ((sum(rate (node_network_receive_bytes_total{device!~'tap.*|veth.*|br.*|docker.*|virbr*|lo*'}[5m])) by (instance)) / 100) > 102400

          summary: "{{$labels.mountpoint}} 流入網絡帶寬過高!"

          description: "{{$labels.mountpoint }}流入網絡帶寬持續2分鐘高于100M. RX帶寬使用率{{$value}}"

        expr: ((sum(rate (node_network_transmit_bytes_total{device!~'tap.*|veth.*|br.*|docker.*|virbr*|lo*'}[5m])) by (instance)) / 100) > 102400

          summary: "{{$labels.mountpoint}} 流出網絡帶寬過高!"

          description: "{{$labels.mountpoint }}流出網絡帶寬持續2分鐘高于100M. RX帶寬使用率{{$value}}"

      - alert: TCP會話

        expr: node_netstat_Tcp_CurrEstab > 1000

          summary: "{{$labels.mountpoint}} TCP_ESTABLISHED過高!"

          description: "{{$labels.mountpoint }} TCP_ESTABLISHED大于1000%(目前使用:{{$value}}%)"

      - alert: 磁盤容量

        expr: 100-(node_filesystem_free_bytes{fstype=~"ext4|xfs"}/node_filesystem_size_bytes {fstype=~"ext4|xfs"}*100) > 80

          summary: "{{$labels.mountpoint}} 磁盤分區使用率過高!"

          description: "{{$labels.mountpoint }} 磁盤分區使用大于80%(目前使用:{{$value}}%)"

版權聲明:本文為CSDN部落客「思考v」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

原文連結:https://blog.csdn.net/xiegh2014/java/article/details/91598728