一、 伺服器的日常監控
1.1 遇到的潛在問題
随着公司的發展,公司的業務量不斷的增加,網站的通路量越來越大,如何快速定位到系統的性能瓶頸,有針對性地提升硬體性能,為企業優化資訊平台的投入成本呢?
1.2 雲監控如何解決
1.2.1 總體思路:
首先,需要安裝雲監控的插件;然後,對伺服器的CPU、記憶體、磁盤、帶寬等名額進行監控;最後,通過設定門檻值告警。
當伺服器的某項名額達到性能瓶頸時,會自動觸發告警,并及時的通知到運維人員進行處理。實作日常運維裡面的自動化告警。
1.2.2 詳細步驟如下:
安裝雲監控插件

自定義報警規則
優化告警聯系人設定
1.2.2 測試驗證:
我們可以通過反向設定告警規則來觸發告警,驗證雲監控是否可以正常告警。例如,将CPU的門檻值設定成小于80%時觸發告警等。由于操作比較簡單,這裡就不再贅述。
至此,我們便可以及時地發現伺服器的性能瓶頸與異常狀态。
二、服務可用性監控
2.1 遇到的問題
當我們發現網站無法被通路時,其中可能存在的故障點有:
1. 伺服器中的相關服務異常
2. 伺服器到用戶端的營運商網絡異常。
接到報障資訊後,我們需要一個個故障點去排查。一方面,我們需要檢查伺服器的監聽端口和相關配置檔案是否正常;另一方面,我們呢還需要去排查client—server這一段營運商網絡是否存在異常等問題。我們才能定位到網站通路異常的故障點。步驟繁瑣,效率底,不能快速定位問題。
2.2
2.2.1 總體思路:
使用雲監控分别從内網和外網對服務的可用性進行監控,由于使用雲監控進行内網進行監控時,跳開營運商網絡異常這個故障點。是以我們指需要綜合内外網的警情況,就可以快速定位到故障發生的位置。
2.2.2 實作步驟如下
1. 建立外網監控
域名僅做舉例,不要雷同哦
2. 建立内網監控
注意:探測源和目标主機同需屬于一個安全組。
3. 測試驗證
I 更改安全組政策模拟營運商網絡異常。
在安全組中新增一條優先級更高的拒絕外網通路目标主機80端口的安全政策。
(這裡僅做模拟測試,請勿在生産環境操作)
可以收到如下告警資訊:
與此同時,内網監控是正常的:
小結:
如果我們隻收到外網的監控告警資訊,但是沒有收到内網的告警資訊,則說明故障點是在外網的網絡營運商。針對營運商問題,可以在雲監控上進一步檢視受影響的區域。
II 将伺服器關機模拟服務本身異常
收到如下告警資訊
當我們收到内網的告警資訊時,往往還會伴還會随着外網的告警資訊。這就說明伺服器的相關服務異常,這就需要我們登陸到伺服器上進一步排查造成服務異常的原因。
綜上所述,當我們隻收到外網的監控告警資訊時,說明故障來自外網。當我們同時收到内外網的告警資訊時,則說明故障點來自伺服器,需要到伺服器上排查。