天天看點

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

背景

雲伺服器ECS是阿裡雲所提供的性能卓越、穩定可靠、可彈性擴充的IaaS級别雲計算服務。使用雲伺服器ECS可以不用采購IT硬體裝置,直接像使用水、電、天然氣等公共資源一樣便捷、高效地使用伺服器,實作計算資源的即開即用和彈性伸縮。衆多業務或服務在ECS上面運作,機器的穩定性對維持服務的穩定性來說尤為關鍵。本期将為大家介紹利用阿裡雲SLS(原日志服務),采集ECS的CPU、記憶體、負載、磁盤、網絡等監控資料,并進行智能巡檢與異常檢測,形成對ECS主機的健康監控大盤,幫助你更好的管理并維護自己的雲伺服器。

名額說明

對于雲伺服器的穩定性,有如下黃金名額值得我們關注:

類型 名額 說明 機關
CPU相關名額 cpu_util CPU使用率,計算方式為排除idle、wait、steal後的占比 百分号(%)
記憶體相關名額 mem_util 記憶體使用率
磁盤相關名額 disk_util IO使用率
網絡相關名額 net_err_util 報錯資料包占總資料包的比值
系統相關名額 system_load1 系統平均負載,1分鐘平均值 不涉及

有關雲伺服器的更多名額(總計46個),可以關注SLS官方文檔:

《采集主機監控資料》

使用流程

資料接入

進入

SLS控制台

,選擇接入資料中的主機監控,可以進入如下界面:

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

以呼和浩特叢集為例,在選擇了目标Project與MetricStore之後,您可以選擇要監控的ECS機器,組合成機器組:

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢
SLS機器學習服務最佳實踐:ECS時序名額監控巡檢
SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

這裡選擇的機器組要安裝配置Logtail:

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

Logtail安裝成功,心跳正常後,就可以開始采集主機的監控資料啦。您隻需要配置如下規則即可采集到對ECS的各項監控名額資料。有關配置參考官方文檔

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

點選左下角的開啟名額巡檢,SLS的機器學習服務将為您實時自動分析監控名額時序資料。智能巡檢服務通過機器學習,神經網絡等AI算法,以流式的方式不斷學習曆史資料,對目前的名額狀态進行異常分析。有關算法詳情請見

《SLS機器學習服務簡介》

至此,我們已經完成了ECS主機監控以及時序名額巡檢的全部配置。完成配置後,您的目标project下将被建立如下工程:

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

其中,主機監控 與 主機監控-ML 分别是名額資料可視化與異常檢測結果可視化兩個大盤,您可以在上面看到您所監控的ECS名額整體情況與健康度情況。

巡檢結果可視與分析

主機監控-ML

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢
SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

上面兩圖展示了異常巡檢結果的大盤。從圖中,我們可以對所監控的機器進行智能化的分析。SLS機器學習服務會為您自動學習曆史資料,判斷目前名額的異常與否,将結果彙總于大盤。您可以通過通過大盤看到整體彙總的異常資訊,以及單名額上的異常位置(三角形符号辨別)。點選異常點進入,可以看到該機器整體名額的變化情況。

主機監控

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

在主機監控大盤中,您可以看到該機器更加詳細的名額變化情況。您可以通過觀察名額的變化來判斷目前ECS的健康狀态,設定相應的告警,輔助您的運維或營運工作。

日志進階

阿裡雲SLS(原日志服務)針對日志與名額監控提供了完整的解決方案,以下相關功能是日志進階的必備良藥:

  1. 機器學習服務: https://help.aliyun.com/document_detail/172129.html
  2. 機器學習文法與函數: https://help.aliyun.com/document_detail/93024.html
  3. 時序存儲: https://help.aliyun.com/document_detail/171723.html
  4. 日志上下文查詢: https://help.aliyun.com/document_detail/48148.html
  5. 快速查詢: https://help.aliyun.com/document_detail/88985.html
  6. 實時分析: https://help.aliyun.com/document_detail/53608.html
  7. 快速分析: https://help.aliyun.com/document_detail/66275.html
  8. 基于日志設定告警: https://help.aliyun.com/document_detail/48162.html
  9. 配置大盤: https://help.aliyun.com/document_detail/69313.html

更多日志進階内容可以參考:

日志服務學習路徑

聯系我們

糾錯或者幫助文檔以及最佳實踐貢獻,請聯系:笃林

問題咨詢請加釘釘群:

SLS機器學習服務最佳實踐:ECS時序名額監控巡檢

繼續閱讀