監控主機: node_exporter

在Prometheus的架構設計中，Prometheus Server并不直接服務監控特定的目标，其主要任務負責資料的收集，存儲并且對外提供資料查詢支援。是以為了能夠能夠監控到某些東西，如主機的CPU使用率，我們需要使用到Exporter。Prometheus周期性的從Exporter暴露的HTTP服務位址（通常是/metrics）拉取監控樣本資料。

從上面的描述中可以看出Exporter可以是一個相對開放的概念，其可以是一個獨立運作的程式獨立于監控目标以外，也可以是直接内置在監控目标中。隻要能夠向Prometheus提供标準格式的監控樣本資料即可。

這裡為了能夠采集到主機的運作名額如CPU, 記憶體，磁盤等資訊。我們可以使用Node Exporter。

Node Exporter同樣采用Golang編寫，并且不存在任何的第三方依賴，隻需要下載下傳，解壓即可運作。

運作 node exporter

下載下傳軟體包:

mkdir -p /usr/local/prometheus/exporter/node 
cd /usr/local/prometheus/exporter/node
curl -s -OL https://github.com/prometheus/node_exporter/releases/download/v0.18.0/node_exporter-$Version.linux-amd64.tar.gz
tar xf node_exporter-0.18.0.linux-amd64.tar.gz
cp -a node_exporter-0.18.0.linux-amd64/node_exporter /usr/local/bin/
cat > /usr/lib/systemd/system/node-exporter.service <<-'EOF'
[Unit]
Description=This is prometheus node exporter
After=docker.service

[Service]
Type=simple
ExecStart=/usr/local/bin/node_exporter
ExecReload=/bin/kill -HUP $MAINPID
KillMode=process
Restart=on-failure

[Install]
WantedBy=multi-user.target
EOF
systemctl daemon-reload && systemctl enable node-exporter.service && systemctl start node-exporter.service

node_exporter 他的本質就是監控主機系統,是以我們不建議将其部署為 docker 容器,因為他需要通路主機系統.

與 prometheus 內建

- job_name: node
    metrics_path: /metrics
    static_configs:
    - targets: ['192.168.111.65:9100']

在 grafana 中添加圖表

prometheus 告警規則

groups:
- name: hostStatsAlert
  rules:
  - alert: hostCpuUsageAlert
    expr: (1- avg(irate(node_cpu_seconds_total{instance=~"$node",mode="idle"}[30m])))*100>85
    for: 1m
    labels:
      level: disaster #定義一個等級标簽,用于altermanager 發送消息
    annotations:
      summary: "執行個體 {{ $labels.instance }} CPU使用率過高"
      description: "{{ $labels.instance }} CPU 使用率大于 85% (目前值為: {{ $value }})"

  - alert: hostMemUsageAlert
    expr: (1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100>85
    for: 1m
    labels:
      level: disaster
    annotations:
      summary: "執行個體 {{ $labels.instance }} 記憶體使用率過高"
      description: "{{ $labels.instance }} 記憶體使用率大于 85% (目前的值: {{ $value }})"

  - alert: hostLoad
    expr: sum(node_load15) >= sum(count(node_cpu_seconds_total{mode='system'}) by (cpu)) and node_load1 > node_load5 and node_load5 > node_load15 
    for: 1m
    labels:
      level: disaster
    annotations:
      summary: "執行個體 {{ $labels.instance }} 15 分鐘負載過高"
      description: "{{ $labels.instance }} 15 分鐘負載大于其 cpu 核心數 (目前的值: {{ $value }})"

  - alert: hostUp
    expr: up{job="node"} == 0
    for: 1m
    labels:
      level: disaster
    annotations:
      summary: "執行個體 {{ $labels.instance }} 不可達"
      description: "{{ $labels.instance }} 執行個體不可達,請盡快解決"

https://github.com/prometheus/node_exporter
https://yunlzheng.gitbook.io/prometheus-book/parti-prometheus-ji-chu/quickstart/prometheus-quick-start/use-node-exporter
https://grafana.com/grafana/dashboards/8919

監控主機: node_exporter監控主機: node_exporter

監控主機: node_exporter

運作 node exporter

與 prometheus 內建

在 grafana 中添加圖表

prometheus 告警規則

繼續閱讀

Thanos Querier 元件

Prometheus監控MongoDB資料庫

hualinux 進階 prom 1-2.10：Prometheus報警處理介紹

使用Prometheus 應用監控的實踐總結

無監控，不運維！Prometheus預測與告警詳解（一）

統一觀測丨使用 Prometheus 監控 Cassandra 資料庫最佳實踐

「前端」Node.js 服務保姆級監控：帶你體驗 Prometheus 的魅力

統一觀測丨借助 Prometheus 監控 ClickHouse 資料庫

kubernetes 服務發現 Node_Exporter 監控 Kubernetes 叢集節點

prometheus+consul服務發現

kube-state-metrics 常用名額及含義

統一觀測｜借助 Prometheus 監控 ClickHouse 資料庫

Spring Boot2 內建 Prometheus 和 Grafana 實作微服務監控入門一 Prometheus二 Grafana 三實作微服務監控

zabbix與prometheus的簡單對比

Relabeling 重新标記

Prometheus+Grafana+onealert---實作報警引言一、Grafana+onealert報警