天天看點

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

使用雲監控監控ecs執行個體

本文以某門戶網站的監控設定為例,講解雲監控服務如何給業務系統做實時護航。

主要内容

監控的必要性

雲監控配置

越來越多的使用者選擇将業務部署在雲上,大大減輕了運維成本和壓力,其中合理的監控設定功不可沒,設定合理的監控不僅可以讓使用者實時了解系統業務的運作情況,還能幫助使用者提前發現問題,避免可能會出現的業務故障;同時有效的告警機制能讓使用者在故障發生後第一時間發現問題,縮短故障處理時間,以便盡快地恢複業務。

此網站架構如下圖所示,其中使用到了阿裡雲産品ecs,rds,oss及負載均衡slb,下面針對此種類型的架構,說明雲監控的配置使用。

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

在開始設定監控前,需要檢查ecs監控插件運作情況,確定監控資訊能夠正常采集,如安裝失敗需要手動安裝,請參考雲監控插件安裝指南。此外,還需要提前添加報警聯系人和聯系組,建議設定至少2人以上的聯系人,互為主備,以便及時響應監控告警。監控選項的設定,具體可參見雲服務資源使用概覽和報警概覽。利用雲監控的dashboard功能,給您業務系統的雲資源設定一個全局監控總覽,可随時檢查整個業務系統資源的健康狀态。下圖根據ecs分組選擇添加監控的資源,依次添加記憶體使用率,cpu使用率等監控項。監控的執行個體數較少可以選擇執行個體次元作為展示,如有多執行個體建議以分組或者使用者為次元展示;監控資料取平均值。

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

為了更好的監控大屏展示效果,這裡将ecs的cpu、記憶體、磁盤的使用率單獨分組展示;将rds的四項名額分兩組展示。

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

報警門檻值

關于各項監控名額的報警門檻值說明,建議根據實際業務情況斟酌設定,不要設定太低以免頻繁觸發報警影響監控服務體驗,也不要設定太高以免觸發門檻值後沒有足夠的預留時間來響應和處理告警。

報警規則

以cpu使用率為例,由于需要給伺服器預留部分處理性能保障伺服器正常運作,是以建議将cpu告警門檻值設定為70%,連續三次超過門檻值後開始報警。如下圖所示點選添加報警規則繼續設定記憶體和磁盤的報警規則和報警通知人即可。

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

程序監控

對于常見的web應用,設定程序監控,不僅可以實時監控應用程序的運作情況,還有助于故障的排查處理,下圖是java程序的相關監控示例。

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

站點監控

在雲伺服器外層的監控服務,站點監控主要用于模拟真實使用者通路情況,實時測試業務可用性,有助于的故障排查處理。

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

rds監控

建議将rds的cpu使用率告警門檻值設定為70%,連續三次超過門檻值後開始報警。硬碟使用率,最大iops使用率,連接配接數等其他監控項可根據您的實際情況來設定。

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

負載均衡監控

為了更好使用負載均衡的雲監控服務,需要先開啟負載均衡slb的健康檢查,詳情參見健康檢查機制和配置說明建議設定負載均衡slb帶寬值的70%作為告警門檻值,如下圖所示。

雲伺服器 ECS 監控:使用雲監控監控ECS執行個體

<a href="https://help.aliyun.com/document_detail/52047.html?spm=5176.doc51371.6.761.uxqfoc">原文連結</a>

繼續閱讀