天天看點

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

一、 伺服器的日常監控

1.1  遇到的潛在問題

随着公司的發展,公司的業務量不斷的增加,網站的通路量越來越大,如何快速定位到系統的性能瓶頸,有針對性地提升硬體性能,為企業優化資訊平台的投入成本呢?

1.2  雲監控如何解決

1.2.1 總體思路:

首先,需要安裝雲監控的插件;然後,對伺服器的CPU、記憶體、磁盤、帶寬等名額進行監控;最後,通過設定門檻值告警。

當伺服器的某項名額達到性能瓶頸時,會自動觸發告警,并及時的通知到運維人員進行處理。實作日常運維裡面的自動化告警。

1.2.2 詳細步驟如下:

安裝雲監控插件

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

自定義報警規則

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

優化告警聯系人設定

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

1.2.2  測試驗證:

我們可以通過反向設定告警規則來觸發告警,驗證雲監控是否可以正常告警。例如,将CPU的門檻值設定成小于80%時觸發告警等。由于操作比較簡單,這裡就不再贅述。

至此,我們便可以及時地發現伺服器的性能瓶頸與異常狀态。

二、服務可用性監控

2.1 遇到的問題

當我們發現網站無法被通路時,其中可能存在的故障點有:

1.  伺服器中的相關服務異常

2.  伺服器到用戶端的營運商網絡異常。

接到報障資訊後,我們需要一個個故障點去排查。一方面,我們需要檢查伺服器的監聽端口和相關配置檔案是否正常;另一方面,我們呢還需要去排查client—server這一段營運商網絡是否存在異常等問題。我們才能定位到網站通路異常的故障點。步驟繁瑣,效率底,不能快速定位問題。

2.2 

2.2.1 總體思路:

使用雲監控分别從内網和外網對服務的可用性進行監控,由于使用雲監控進行内網進行監控時,跳開營運商網絡異常這個故障點。是以我們指需要綜合内外網的警情況,就可以快速定位到故障發生的位置。

2.2.2 實作步驟如下

1. 建立外網監控

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

域名僅做舉例,不要雷同哦

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

2.  建立内網監控

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

注意:探測源和目标主機同需屬于一個安全組。

3.  測試驗證

I 更改安全組政策模拟營運商網絡異常。

 在安全組中新增一條優先級更高的拒絕外網通路目标主機80端口的安全政策。

(這裡僅做模拟測試,請勿在生産環境操作)

可以收到如下告警資訊:

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控
雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

與此同時,内網監控是正常的:

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

小結:

如果我們隻收到外網的監控告警資訊,但是沒有收到内網的告警資訊,則說明故障點是在外網的網絡營運商。針對營運商問題,可以在雲監控上進一步檢視受影響的區域。

II 将伺服器關機模拟服務本身異常

收到如下告警資訊

雲監控之運維篇 一、伺服器的日常監控 二、服務可用性監控

當我們收到内網的告警資訊時,往往還會伴還會随着外網的告警資訊。這就說明伺服器的相關服務異常,這就需要我們登陸到伺服器上進一步排查造成服務異常的原因。

綜上所述,當我們隻收到外網的監控告警資訊時,說明故障來自外網。當我們同時收到内外網的告警資訊時,則說明故障點來自伺服器,需要到伺服器上排查。