天天看点

prometheus监控docker资源情况部署

prometheus核心:多维数据模型

比如要监控容器webapp1的内存使用情况,最传统和典型的方法是定义一个指标container_memory_usage_bytes_webapp1来记录webapp1的内存使用数据,加入每一分钟取样一次,那么在数据库里就会有类似下面的记录

prometheus监控docker资源情况部署

如果现在需求发生了变化,我们需要知道webapp所有容器的内存使用情况,如果还是采用刚才的方法,就不得不增加指标container_memory_usage_bytes_webapp2,container_memory_usage_bytes_webapp3,。。。。。。。

像graphite这类更高级的监控方案采用了更为优雅的层次化数据模型,为了满足上面的需求,graphite会定义指标:container.memory_usage_butes.webapp1,container.memory_usage_butes.webapp2,container.memory_usage_butes.webapp3,。。。。。。

然后就可以用:container.memory_usage_butes.webapp*获取所有的webapp内存使用数据

此外graphite还支持sum()等函数对指标进行计算和处理,

比如:sum(container.memory_usage_butes.webapp1*)可以得到所有webapp容器占用的总内存量

目前为止,问题处理的都很好,但是客户也许会提出更多得需求:现在不仅按容器得名字统计内存使用量,还要按照镜像来统计;或者想对比一下某一组容器在生产环境和测试环境中内存使用得不同情况

如果按照传统得方案:只要定义更多得指标就能满足这些需求,比如:

container.memory_usage_bytes.image1.webapp1,container.memory_usage_bytes.webapp1.prod等

但问题在于我们没办法提前预知客户要用这些数据回答怎样得问题,所以没办法提前定义好所有得指标

下面来看一下prometheus解决方案:

promethues只需要定义一个全局得指标container_memory_usage_bytes,然后通过添加不同得维度数据来满足不同得业务需求

比如对于前面的webapp1的三条取样数据,转换成prometheus多维数据变成:

prometheus监控docker资源情况部署

后面三列container_name,image,env就是数据的三个w维度。

想象一下,如果不同的env(prod,test,dev),不同image的容器,他们的内存使用数据中标注了这三个维度信息,那么就能满足很多业务需求

比如:

1.计算webapp2的平均内存使用情况:

avg(container_memory_usage_bytes{container_name="webapp2"})

2.计算运行mycom/webapp:1.3镜像的所有内存使用总量:

sum(container_memory_usage_bytes{image="mycom/webapp:1.3"})

3.统计不同运行环境中webapp容器内存使用总量:

sum(container_memory_usage_bytes{container_name=~"webapp"})by (env)

这只是几个例子,不过已经说明prometheus数据模型的优势了:

1.通过维度对数据进行说明,附加更多的业务信息,进而满足不同业务的需求。同时维度是可以动态添加的,比如再给数据添加一个user维度,就可以按照用户来统计内存的使用量了。

2.prometheus丰富的查询语句能够灵活,充分挖掘数据的价值

部署prometheus:

环境说明:我们通过prometheus监控两台docker host,监控host和容器两个层次的数据

按照架构图,我们需要运行如下组件:

prometheus server

prometheus server本身也是用容器方式运行

exporter

prometheus有很多现成的exporter,完整的列表请参考官网:

    我们将使用:

1.NODE exporter,负责收集host硬件和操作系统数据,他将以容器的方式运行在所有的host上

2.cadvisor:负责收集容器的数据,他将以容器的方式运行在所有的host上

grafana

显示多维数据,grafana将以容器的方式与prometheus server运行在同一个host上

开始部署

1.运行node exporter

在两个host上运行容器:

docker run -d -p 9100:9100 -v "/proc:/host/proc" -v "/sys:/host/sys" -v "/:/rootfs" --net=host prom/node-exporter --path.procfs /host/proc --path.sysfs /host/sys --collector.filesystem.ignored-mount-points "^/(sys|proc|dev|)"

prometheus监控docker资源情况部署
prometheus监控docker资源情况部署

注意:我们这里用的网络是host :--network host,这样prometheus server可以直接与node exporter通信

Node exporter启动后,将通过9100提供host的监控数据。在浏览器中通过http://ip:9100/metrics测试一下

prometheus监控docker资源情况部署

两个host运行cadvisor

docker run -d -p 9090:8080 --network host --name cadvisor -v /:/rootfs:ro -v /var/run:/var/run:rw -v /sys:/sys:ro -v /var/lib/docker/:/var/lib/docker:ro google/cadvisor:latest

prometheus监控docker资源情况部署

注意:我们这里的容器也是用的是host网络,这样方便cadvisor与prometheus server 进行通信

cadvisor启动后,将通过9090提供host的监控数据。在浏览器中通过:http://ip:9090/metrics测试

prometheus监控docker资源情况部署

在docker一台上运行prometheus server

 docker run -it -p 9091:9090 -v /root/prometheus:/etc/prometheus --name prometheus --network host prom/prometheus

这个prometheus.yml文件是自己创建的

可以在官网上copy,https://prometheus.io/docs/prometheus/latest/getting_started/

prometheus.yml配置如下

global:

  scrape_interval:     15s # By default, scrape targets every 15 seconds.

  # Attach these labels to any time series or alerts when communicating with

  # external systems (federation, remote storage, Alertmanager).

  external_labels:

    monitor: 'codelab-monitor'

# A scrape configuration containing exactly one endpoint to scrape:

# Here it's Prometheus itself.

scrape_configs:

  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.

  - job_name: 'prometheus'

    # Override the global default and scrape targets from this job every 5 seconds.

    scrape_interval: 5s

    static_configs:

      - targets: ['ip9090','ip:9091','ip:9100','ip:9090','ip:9100']

prometheus监控docker资源情况部署

登录http://ip:9091/target得到以下页面

prometheus监控docker资源情况部署

所有的target的state都是UP,说明Promethues server能够正常获取监控数据

 在prometheus server上运行grafana

 同样是以容器的方式运行,官网:http://docs.grafana.org/installation/docker/

docker run \

  -d \

  -p 3000:3000 \

  --name=grafana \

--network host \

  -e "GF_SERVER_ROOT_URL=http://grafana.server.name" \

  -e "GF_SECURITY_ADMIN_PASSWORD=secret" \

  grafana/grafana

prometheus监控docker资源情况部署

注:这里我们依然使用的是host网络,这样grafana可以直接与prometheus server进行通信

-e "GF_SECURITY_ADMIN_PASSWORD=secret" 指定了grafana admin用户密码:secret

grafana启动后。在浏览器中打开http://ip:3000

prometheus监控docker资源情况部署

登录后,grafana将引导我们配置Data source

prometheus监控docker资源情况部署
prometheus监控docker资源情况部署

Name为data source命名

例如:prometheus

Type选择prometheus

Url输入:prometheus server的地址:http://ip:9090

其他值保持默认,点击add

现在grafana就可以访问prometheus server中存放的数据了,那么如何让展示呢?

grafana是通过dashboard展示数据的,在dashboard中需要定义

1.展示prometheus的那些数据?需要给出具体的查询语句表达式

2.用什么形式展示,比如:二维线性图,仪表图,各种坐标的含义

可见要做出一个dashboard也是一件不容易的事情。还好,我们可以借助开源社区的力量,直接俄使用现成的dashboard。

访问:https://grafana.com/dashboards?dataSource=prometheus&search=docker

,将会看到很多用于监控docker的dashboard

prometheus监控docker资源情况部署

我们可以下载现成的dashboard,然后import到我们的grafana中就可以直接使用了。

比如:下载一个Docker and system monitoring,得到一个json文件

prometheus监控docker资源情况部署
prometheus监控docker资源情况部署

点击gafana左上角菜单:dashboard->import

prometheus监控docker资源情况部署

导入我们下载得json文件

prometheus监控docker资源情况部署
prometheus监控docker资源情况部署

dashboard将立刻展示出漂亮得图表

prometheus监控docker资源情况部署

在这个dashboard中,上部分是host数据,我们可以通过Node切换不同得host

prometheus监控docker资源情况部署

Dashboard得下班部分展示的是所有容器监控数据。grafana的dashboard是可以交互的,我们可以在图表上只显示指定的容器,选取指定的时间区间,重新组织和排列图表,调整刷新频率,功能非常强大!