天天看點

zabbix使用IT services 了解伺服器SLA整體情況

什麼是IT Services

伺服器或者某項服務、業務的可用率,不懂技術的上級上司會過問最近伺服器可用率如何、所有api的狀況怎麼樣?通常一些技術人員會說負載怎麼樣,哪些cpu使用率怎麼樣,硬碟使用情況,api的響應速度都保持在多少、響應時間都在多少?還沒等說完,上司就打斷了。他不關心這些細節,更不懂這些技術。他想要的是一個結果。比如說伺服器故障率在0.001,api的響應率在99.99%。這就是IT Services的功能。

IT service結構如下:

IT Service

|

|-Workstations

| |

| |-Workstation1

| |-Workstation2

|-Servers

IT Sverices示例

舉個例子,API的SLA,各個子Service都有他的可用率,然後XXX網站API可以統計到整個API的可用率,當上司過問起來,給他看這個就行了。

|-XXX網站API

| |-天氣API

| |-新聞API

| |-使用者API

| |-....xxxAPI(省略各種api)

|-Servers(其他services)

那這些可用率是怎麼計算出來的呢?根據你的觸發器,除了未分類和資訊這兩類,其他嚴重性級别,例如警告(warnning)等等都會記入故障率

配置IT Services

configuration->IT Services->單擊root->Add services

<a href="http://s1.51cto.com/wyfs02/M02/85/22/wKioL1eayy3DhToyAARHolrtkx0934.png-wh_500x0-wm_3-wmp_4-s_988031722.png" target="_blank"></a>

建立伺服器線上率

<a href="http://s2.51cto.com/wyfs02/M01/85/22/wKioL1eay3yxVSsLAARNicpGJKk779.png-wh_500x0-wm_3-wmp_4-s_1565227881.png" target="_blank"></a>

service說明

name:名稱

Parent service:上級節點,這邊是root

Status calculation algorithm:計算付費,共有三個選項

Do not calculate - 不加入計算

Problem, if at least one child has a problem - 子項至少一個發生故障(一般用這個)

Problem, if all children have problems - 所有子項都發生故障,才加入計算

Acceptable SLA (in %):可接受的可用率百分比,如果在大于這個百分比那麼現實綠色,如果小于那麼就是紅色顯示

Trigger:觸發器,可以選觸發器也可以不選,不過大家要記住,可用率計算的就是這些觸發器的可用率,如果沒有觸發器根本無法計算。最上級的可以不選觸發器,子項一定記得選擇觸發器,否則就失去意義了。

添加子service

<a href="http://s3.51cto.com/wyfs02/M02/85/22/wKioL1eazBmxsXDoAARXGtn1e6E418.png-wh_500x0-wm_3-wmp_4-s_2209981299.png" target="_blank"></a>

依賴标簽

這邊我們不增加依賴,在後面我們專門來談談這個依賴

<a href="http://s2.51cto.com/wyfs02/M01/85/22/wKioL1eazKnhUxEVAASIoYNsNkQ590.png-wh_500x0-wm_3-wmp_4-s_1614961326.png" target="_blank"></a>

<a href="http://s2.51cto.com/wyfs02/M01/85/22/wKioL1eazLuiXEZIAAPjl1L4Cls041.png-wh_500x0-wm_3-wmp_4-s_209528126.png" target="_blank"></a>

Time這邊如果預設,那麼就是24x7

<a href="http://s1.51cto.com/wyfs02/M00/85/22/wKiom1eazSzQkszZAAQ7RQohWlY939.png-wh_500x0-wm_3-wmp_4-s_936913158.png" target="_blank"></a>

Time說明

Service times:定義好的工作時間

New service time:一共有三個選項

Downtime - 在這個時間段,不計入SLA

One-time downtime - 在這個時間段,不計入SLA,指定一個時間(隻有一次)

Uptime :工作時間,在這個時間内出現故障都計入SLA

看看效果,monitoring--&gt;IT services

<a href="http://s1.51cto.com/wyfs02/M02/85/22/wKiom1eazZ2iuUf8AARftjXquRQ020.png-wh_500x0-wm_3-wmp_4-s_3251933245.png" target="_blank"></a>

IT Services依賴

分為hard和soft依賴,例如我們增加一個C伺服器,他需要依賴其他IT樹下的services,首先它不能連結觸發器,在依賴那邊選擇其他樹下依賴即可,可以添加多個,軟依賴是灰色的辨別,硬體依賴則是直接把整個service挪過來。如果C伺服器使用軟依賴,那麼可以直接删除C伺服器Service,如果是硬依賴,需要先移除依賴,才能删除。

<a href="http://s3.51cto.com/wyfs02/M00/85/23/wKiom1eaznuzEm7OAAPkJy0Ty-w525.png-wh_500x0-wm_3-wmp_4-s_4013113128.png" target="_blank"></a>

如下,原本“測試”和“伺服器線上率”在同一個層級,都歸屬于root,但是加了硬依賴之後,直接到了C伺服器隻下了

<a href="http://s3.51cto.com/wyfs02/M01/85/23/wKiom1eazvzzJU9zAAICv03WG8E373.png-wh_500x0-wm_3-wmp_4-s_4126806766.png" target="_blank"></a>

接着來看看軟依賴,勾選soft,就是軟依賴了

<a href="http://s3.51cto.com/wyfs02/M02/85/23/wKiom1eazzmidXyrAAE8UczvJQk298.png-wh_500x0-wm_3-wmp_4-s_342516077.png" target="_blank"></a>

看下圖,和硬依賴很不相同,C伺服器下的測試是灰色的,并且“測試”依舊和“伺服器線上率”在同一個層次。

<a href="http://s3.51cto.com/wyfs02/M00/85/22/wKioL1eaz2qiz3AUAAI5KXBGt8Y118.png-wh_500x0-wm_3-wmp_4-s_1871602779.png" target="_blank"></a>

此時你可以直接删除C伺服器,但是硬依賴的情況下不行哦。

好了,zabbix IT SERVICES就到這裡了,可以給上司開個權限,這樣他也可以了解到伺服器整體狀況了。運維們也需要經常看,畢竟這是調整的一個一句。

本文轉自青衫解衣 51CTO部落格,原文連結:http://blog.51cto.com/215687833/1831640

繼續閱讀