背景
雲伺服器ECS是阿裡雲所提供的性能卓越、穩定可靠、可彈性擴充的IaaS級别雲計算服務。使用雲伺服器ECS可以不用采購IT硬體裝置,直接像使用水、電、天然氣等公共資源一樣便捷、高效地使用伺服器,實作計算資源的即開即用和彈性伸縮。衆多業務或服務在ECS上面運作,機器的穩定性對維持服務的穩定性來說尤為關鍵。本期将為大家介紹利用阿裡雲SLS(原日志服務),采集ECS的CPU、記憶體、負載、磁盤、網絡等監控資料,并進行智能巡檢與異常檢測,形成對ECS主機的健康監控大盤,幫助你更好的管理并維護自己的雲伺服器。
名額說明
對于雲伺服器的穩定性,有如下黃金名額值得我們關注:
類型 | 名額 | 說明 | 機關 |
---|---|---|---|
CPU相關名額 | cpu_util | CPU使用率,計算方式為排除idle、wait、steal後的占比 | 百分号(%) |
記憶體相關名額 | mem_util | 記憶體使用率 | |
磁盤相關名額 | disk_util | IO使用率 | |
網絡相關名額 | net_err_util | 報錯資料包占總資料包的比值 | |
系統相關名額 | system_load1 | 系統平均負載,1分鐘平均值 | 不涉及 |
有關雲伺服器的更多名額(總計46個),可以關注SLS官方文檔:
《采集主機監控資料》使用流程
資料接入
進入
SLS控制台,選擇接入資料中的主機監控,可以進入如下界面:

以呼和浩特叢集為例,在選擇了目标Project與MetricStore之後,您可以選擇要監控的ECS機器,組合成機器組:



這裡選擇的機器組要安裝配置Logtail:

Logtail安裝成功,心跳正常後,就可以開始采集主機的監控資料啦。您隻需要配置如下規則即可采集到對ECS的各項監控名額資料。有關配置參考官方文檔

點選左下角的開啟名額巡檢,SLS的機器學習服務将為您實時自動分析監控名額時序資料。智能巡檢服務通過機器學習,神經網絡等AI算法,以流式的方式不斷學習曆史資料,對目前的名額狀态進行異常分析。有關算法詳情請見
《SLS機器學習服務簡介》。
至此,我們已經完成了ECS主機監控以及時序名額巡檢的全部配置。完成配置後,您的目标project下将被建立如下工程:

其中,主機監控 與 主機監控-ML 分别是名額資料可視化與異常檢測結果可視化兩個大盤,您可以在上面看到您所監控的ECS名額整體情況與健康度情況。
巡檢結果可視與分析
主機監控-ML


上面兩圖展示了異常巡檢結果的大盤。從圖中,我們可以對所監控的機器進行智能化的分析。SLS機器學習服務會為您自動學習曆史資料,判斷目前名額的異常與否,将結果彙總于大盤。您可以通過通過大盤看到整體彙總的異常資訊,以及單名額上的異常位置(三角形符号辨別)。點選異常點進入,可以看到該機器整體名額的變化情況。
主機監控

在主機監控大盤中,您可以看到該機器更加詳細的名額變化情況。您可以通過觀察名額的變化來判斷目前ECS的健康狀态,設定相應的告警,輔助您的運維或營運工作。
日志進階
阿裡雲SLS(原日志服務)針對日志與名額監控提供了完整的解決方案,以下相關功能是日志進階的必備良藥:
- 機器學習服務: https://help.aliyun.com/document_detail/172129.html
- 機器學習文法與函數: https://help.aliyun.com/document_detail/93024.html
- 時序存儲: https://help.aliyun.com/document_detail/171723.html
- 日志上下文查詢: https://help.aliyun.com/document_detail/48148.html
- 快速查詢: https://help.aliyun.com/document_detail/88985.html
- 實時分析: https://help.aliyun.com/document_detail/53608.html
- 快速分析: https://help.aliyun.com/document_detail/66275.html
- 基于日志設定告警: https://help.aliyun.com/document_detail/48162.html
- 配置大盤: https://help.aliyun.com/document_detail/69313.html
更多日志進階内容可以參考:
日志服務學習路徑聯系我們
糾錯或者幫助文檔以及最佳實踐貢獻,請聯系:笃林
問題咨詢請加釘釘群:
