智能巡檢雲監控名額的最佳實踐

背景介紹

在真實的企業生産中，對研發和運維的同學都會面臨一個十分繁複且艱難的問題，就是對名額的監控和告警。具體我枚舉一些特定的問題請對号入座，看看在算力爆炸的時代能否通過算力和算法一起解決！

問題一：當一個新業務上線前，運維人員都需要明确服務的部署情況，确定監控對象，以及監控對象的一些可觀測性名額，并根據此完成相關日志資料的采集和處理；這裡面會涉及到很多日志采集、名額加工等一系列髒活累活；
問題二：當确定了監控對象的黃金名額後，往往都需要先适配一組規則：某個接口每分鐘的平均請求延時不要超過多少毫秒；機關分鐘内的錯誤請求數量，不要超過多少等等；就如上圖所示，從作業系統次元去看，每個個體有上百種形态各異的名額，切名額的形态有不盡相同，試問要多少種規則才能較好的覆寫到上述監控；
問題三：随着業務逐漸對外提供服務，以及各種營運活動的加推，我們運維監控同學一定會面臨兩個突出的問題：誤報太多和漏報的風險，那麼這兩個問題都在現階段都需要人工介入，進行門檻值的調整；尤其是漏報的問題，更加需要人工盯屏的形式，設計新的監控規則去覆寫一些事件；

随着各個雲上服務的SLA要求的提升，企業服務也需要不斷的提供問題發現的準确性和速度，在這一點上，自動化的主動巡檢監控和秒級别的監控越來越被廣大客戶所重視。SLS提供了對于名額資料的高效的存儲格式，并完全相容Prometheus協定的時序資料，并在這個場景中，提供了對于海量名額線的智能巡檢，讓您可以丢掉繁複的規則配置，通過簡單的選擇就可以實作通用的異常檢測。

時序存儲的介紹

SLS的日志存儲引擎在2016年對外釋出，目前承接阿裡内部以及衆多企業的日志資料存儲，每天有數十PB的日志類資料寫入。其中有很大一部分屬于時序類資料或者用來計算時序名額，為了讓使用者能夠一站式完成整個DevOps生命周期的資料接入、清洗、加工、提取、存儲、可視化、監控、問題分析等過程，我們專門推出了時序存儲的功能，與日志存儲一道為大家解決各類機器資料的存儲問題。

在SLS平台中，可以較為簡單的将主機的監控資料、Prometheus監控資料通過Logtail直接寫入，同時也有多種資料源的導入能力（阿裡雲監控資料）。本章主要通過對ECS機器資料和阿裡雲監控資料來說明如何對接SLS智能時序巡檢能力。

智能異常分析介紹

智能異常分析應用是一個可托管、高可用、可擴充的服務，主要提供智能巡檢、文本分析和根因診斷三大能力。本文介紹智能異常分析應用的産品架構、功能優勢、适用場景、核心名詞、使用限制和費用說明等資訊。

智能異常分析應用圍繞運維場景中的監控名額、程式日志、服務關系等核心要素展開，通過機器學習等手段産生異常事件，通過服務拓撲關聯分析時序資料和事件，最終降低企業的運維複雜度，提高服務品質。産品架構圖如下所示。

在如下場景中，推薦使用智能異常分析應用。

觀察對象多且每個觀察對象的觀測次元也多。
觀測對象沒有明确的門檻值規則，但需要關注名額的形态。
需要對觀測對象編寫大量的業務規則。
處理非結構化的日志資料時，需要對文本日志中的模式進行挖掘。

接下來我們在雲監控名額資料場景中使用下

場景實驗

智能監控雲監控名額

雲監控資料接入

通過[官網文檔](

https://help.aliyun.com/document_detail/171780.html

)可以較好的配置雲監控的導入任務。通過配置後，可以按照如下截圖去檢視對應的導入任務

我們可以在SLS控制台上檢視對應的導入名額，對應各個名額的名稱可以參考[這篇文檔](

https://metricmeta.oss-cn-hangzhou.aliyuncs.com/listMetricMeta_zh.html

)。我們可以通過如下查詢語句檢視下聚合的資料格式：

* | select promql_query_range('acs_ecs_dashboard:cpu_system:Average') from metrics limit 100000

雲監控資料預覽

通過【查詢頁面右上角的查詢頁面】按鈕，可以跳轉過去檢視下具體的資料格式。

* | select __time_nano__  / 1000000 as time, __name__ as metric_name, element_at(__labels__, 'instanceId') as instanceId from "test01.prom" where __name__ != '' and __name__ = 'acs_ecs_dashboard:cpu_system:Average' order by time, instanceId limit 100000

通過這條SQL語句，我們可以詳細的分析出，寫入到SLS中的具體的名額（某個監控對象，某個名額在什麼時間的值是多少）。上述SQL語句僅僅羅列了在 2021-12-12 19:37~2021-12-12 19:38 這個時間區間的全部監控對象的監控名額，接下來，我們通過簡單的改寫，僅僅顯示某個單獨的監控對象在一分鐘的資料形态。

* | select date_trunc('second', time) as format, * from ( select __time_nano__  / 1000000 as time, __name__ as metric_name, element_at(__labels__, 'instanceId') as instanceId from "test01.prom" where __name__ != '' and __name__ = 'acs_ecs_dashboard:cpu_system:Average') where instanceId = 'xxxx' order by time limit 100000

我們可以看到對于監控名額等于“acs_ecs_dashboard:cpu_system:Average”而言，某個特定的執行個體是每隔15秒一個監控名額。但是由于我們使用的資料導入，将結果寫入到SLS的MetricStore中，是以是每分鐘寫入如一分鐘的監控資料。

這裡要在強調一下：SLS側是是通過OpenAPI去擷取雲監控的名額資料的，資料導入SLS是有一定的延時的，具體延時大約在3分鐘左右，也就是說在 T0 時刻，SLS中的資料隻能保證 [T0-300s] 之前的資料時一定按時寫入的。這一點在後續的巡檢任務配置過程中至關重要。

我們通過PromQL在簡化下上邊的描述，我們繼續使用對應的名額 "acs_ecs_dashboard:cpu_system:Average"，通過如下的語句可以得到預期的結果，這已經距離我們建立巡檢任務已經很接近了。

* | select promql_query_range('avg({__name__=~"acs_ecs_dashboard:cpu_system:Average"}) by (instanceId, __name__) ', '15s') from metrics limit 1000000

篩選監控名額

通過如下的Query可以大概知道在雲監控關于ECS提供了多少監控名額：

* | select COUNT(*) as num from ( select DISTINCT __name__ from "test01.prom" where __name__ != '' and __name__ like '%acs_ecs_dashboard%' limit 10000 )

得到的結果是295個結果，但是我們沒有比較全部都進行巡檢配置，是以第一步就是要根據[名額說明文檔](

)選擇需要監控的名額項，這裡我提供一份簡單整理出來的比較重要的名額集合，供大家參考：

acs_ecs_dashboard:CPUUtilization:Average
acs_ecs_dashboard:DiskReadBPS:Average
acs_ecs_dashboard:DiskReadIOPS:Average
acs_ecs_dashboard:DiskWriteBPS:Average
acs_ecs_dashboard:DiskWriteIOPS:Average
acs_ecs_dashboard:InternetIn:Average
acs_ecs_dashboard:InternetInRate:Average
acs_ecs_dashboard:InternetOut:Average
acs_ecs_dashboard:InternetOutRate:Average
acs_ecs_dashboard:InternetOutRate_Percent:Average
acs_ecs_dashboard:IntranetIn:Average
acs_ecs_dashboard:IntranetInRate:Average
acs_ecs_dashboard:IntranetOut:Average
acs_ecs_dashboard:IntranetOutRate:Average
acs_ecs_dashboard:cpu_idle:Average
acs_ecs_dashboard:cpu_other:Average
acs_ecs_dashboard:cpu_system:Average
acs_ecs_dashboard:cpu_total:Average
acs_ecs_dashboard:cpu_user:Average
acs_ecs_dashboard:cpu_wait:Average
acs_ecs_dashboard:disk_readbytes:Average
acs_ecs_dashboard:disk_readiops:Average
acs_ecs_dashboard:disk_writebytes:Average
acs_ecs_dashboard:disk_writeiops:Average
acs_ecs_dashboard:load_1m:Average
acs_ecs_dashboard:load_5m:Average
acs_ecs_dashboard:memory_actualusedspace:Average
acs_ecs_dashboard:memory_freespace:Average
acs_ecs_dashboard:memory_freeutilization:Average
acs_ecs_dashboard:memory_totalspace:Average
acs_ecs_dashboard:memory_usedspace:Average
acs_ecs_dashboard:memory_usedutilization:Average
acs_ecs_dashboard:net_tcpconnection:Average
acs_ecs_dashboard:networkin_errorpackages:Average
acs_ecs_dashboard:networkin_packages:Average
acs_ecs_dashboard:networkin_rate:Average
acs_ecs_dashboard:networkout_errorpackages:Average
acs_ecs_dashboard:networkout_packages:Average
acs_ecs_dashboard:networkout_rate:Average

根據上述配置，生成對應的查詢PromQL如下：

* | select promql_query_range('avg({__name__=~"acs_ecs_dashboard:CPUUtilization:Average|acs_ecs_dashboard:DiskReadBPS:Average|acs_ecs_dashboard:DiskReadIOPS:Average|acs_ecs_dashboard:DiskWriteBPS:Average|acs_ecs_dashboard:DiskWriteIOPS:Average|acs_ecs_dashboard:InternetIn:Average|acs_ecs_dashboard:InternetInRate:Average|acs_ecs_dashboard:InternetOut:Average|acs_ecs_dashboard:InternetOutRate:Average|acs_ecs_dashboard:InternetOutRate_Percent:Average|acs_ecs_dashboard:IntranetIn:Average|acs_ecs_dashboard:IntranetInRate:Average|acs_ecs_dashboard:IntranetOut:Average|acs_ecs_dashboard:IntranetOutRate:Average|acs_ecs_dashboard:cpu_idle:Average|acs_ecs_dashboard:cpu_other:Average|acs_ecs_dashboard:cpu_system:Average|acs_ecs_dashboard:cpu_total:Average|acs_ecs_dashboard:cpu_user:Average|acs_ecs_dashboard:cpu_wait:Average|acs_ecs_dashboard:disk_readbytes:Average|acs_ecs_dashboard:disk_readiops:Average|acs_ecs_dashboard:disk_writebytes:Average|acs_ecs_dashboard:disk_writeiops:Average|acs_ecs_dashboard:load_1m:Average|acs_ecs_dashboard:load_5m:Average|acs_ecs_dashboard:memory_actualusedspace:Average|acs_ecs_dashboard:memory_freespace:Average|acs_ecs_dashboard:memory_freeutilization:Average|acs_ecs_dashboard:memory_totalspace:Average|acs_ecs_dashboard:memory_usedspace:Average|acs_ecs_dashboard:memory_usedutilization:Average|acs_ecs_dashboard:net_tcpconnection:Average|acs_ecs_dashboard:networkin_errorpackages:Average|acs_ecs_dashboard:networkin_packages:Average|acs_ecs_dashboard:networkin_rate:Average|acs_ecs_dashboard:networkout_errorpackages:Average|acs_ecs_dashboard:networkout_packages:Average|acs_ecs_dashboard:networkout_rate:Average"}) by (instanceId, __name__) ', '1m') from metrics limit 1000000

對于一般場景而言，我們可以在簡化一些名額，這裡直接提供對應的PromQL如下：

* | select promql_query_range('avg({__name__=~"acs_ecs_dashboard:CPUUtilization:Average|acs_ecs_dashboard:DiskReadBPS:Average|acs_ecs_dashboard:DiskReadIOPS:Average|acs_ecs_dashboard:DiskWriteBPS:Average|acs_ecs_dashboard:DiskWriteIOPS:Average|acs_ecs_dashboard:InternetIn:Average|acs_ecs_dashboard:InternetInRate:Average|acs_ecs_dashboard:InternetOut:Average|acs_ecs_dashboard:InternetOutRate:Average|acs_ecs_dashboard:InternetOutRate_Percent:Average|acs_ecs_dashboard:IntranetOut:Average|acs_ecs_dashboard:IntranetOutRate:Average|acs_ecs_dashboard:cpu_idle:Average|acs_ecs_dashboard:cpu_other:Average|acs_ecs_dashboard:cpu_system:Average|acs_ecs_dashboard:cpu_total:Average|acs_ecs_dashboard:cpu_user:Average|acs_ecs_dashboard:cpu_wait:Average|acs_ecs_dashboard:disk_readbytes:Average|acs_ecs_dashboard:disk_readiops:Average|acs_ecs_dashboard:disk_writebytes:Average|acs_ecs_dashboard:disk_writeiops:Average|acs_ecs_dashboard:load_1m:Average|acs_ecs_dashboard:load_5m:Average|acs_ecs_dashboard:memory_freespace:Average|acs_ecs_dashboard:memory_freeutilization:Average|acs_ecs_dashboard:memory_totalspace:Average|acs_ecs_dashboard:memory_usedspace:Average|acs_ecs_dashboard:memory_usedutilization:Average"}) by (instanceId, __name__) ', '1m') from metrics limit 1000000

配置智能巡檢任務

在【[SLS控制台](

https://sls.console.aliyun.com/lognext/profile

)】中找到【智能異常分析】的入口，經過簡單的初始化後，可以通過【智能巡檢】的任務入口進入，找到對應的配置頁面。在作業配置的過程中，應該注意這裡要選擇時序庫，否則無法找到存儲雲監控資料的MetricStore。

在特征配置中，通過如下的Query進行配置，這裡也有幾點需要注意的說明：

通過SQL轉寫一下，并對time字段進行處理，因為在巡檢中，接受的時間的機關是秒，而PromQL得到的結果中time是毫秒；
通過element_at算子，提取出對應的執行個體ID(instanceId)；
目前在配置粒度時，最小隻支援60秒；

* | select time / 1000 as time, metric, element_at(labels, 'instanceId') as instanceId, value from ( select promql_query_range('avg({__name__=~"acs_ecs_dashboard:CPUUtilization:Average|acs_ecs_dashboard:DiskReadBPS:Average|acs_ecs_dashboard:DiskReadIOPS:Average|acs_ecs_dashboard:DiskWriteBPS:Average|acs_ecs_dashboard:DiskWriteIOPS:Average|acs_ecs_dashboard:InternetIn:Average|acs_ecs_dashboard:InternetInRate:Average|acs_ecs_dashboard:InternetOut:Average|acs_ecs_dashboard:InternetOutRate:Average|acs_ecs_dashboard:InternetOutRate_Percent:Average|acs_ecs_dashboard:IntranetOut:Average|acs_ecs_dashboard:IntranetOutRate:Average|acs_ecs_dashboard:cpu_idle:Average|acs_ecs_dashboard:cpu_other:Average|acs_ecs_dashboard:cpu_system:Average|acs_ecs_dashboard:cpu_total:Average|acs_ecs_dashboard:cpu_user:Average|acs_ecs_dashboard:cpu_wait:Average|acs_ecs_dashboard:disk_readbytes:Average|acs_ecs_dashboard:disk_readiops:Average|acs_ecs_dashboard:disk_writebytes:Average|acs_ecs_dashboard:disk_writeiops:Average|acs_ecs_dashboard:load_1m:Average|acs_ecs_dashboard:load_5m:Average|acs_ecs_dashboard:memory_freespace:Average|acs_ecs_dashboard:memory_freeutilization:Average|acs_ecs_dashboard:memory_totalspace:Average|acs_ecs_dashboard:memory_usedspace:Average|acs_ecs_dashboard:memory_usedutilization:Average"}) by (instanceId, __name__) ', '1m') from metrics ) limit 10000

在下面的【算法配置】、【排程配置】中需要注意如下：

【時間範圍】- 要選擇目前時間的兩天前，讓算法有充足的資料進行學習，這樣效果更好；

【資料延時時長】- 由于我們處理的是通過導入服務導入的雲監控的資料，一般整體的鍊路延時最多不會超過300s，是以這裡要選擇300秒，防治觀測丢點。

配置告警

通過SLS中提供的[新版告警](

https://help.aliyun.com/document_detail/207608.html

)可以非常友善的對接機器學習的告警配置。您可以使用一整套告警的能力，對您的告警進行管理。

建議您使用普通模式卻設定告警，在【行動政策】這一欄中，選擇我們内置的行動政策(sls.app.ml.builtin)，這裡我們已經配置好了，具體可以在告警配置中進行檢視，檢視位址具體：

https://sls.console.aliyun.com/lognext/project/${projectName}/alertcenter?tab=action_policy

這裡您要制定對應的請求位址（釘釘機器人的位址webhook），内容模闆選擇【SLS智能巡檢内置内容模闆】。這樣可以将【告警配置】與【巡檢作業配置】解耦開來，後續使用者需求修改【巡檢作業】配置就可以實作告警配置的更新。至此，我們在【雲監控資料】中配置巡檢算法的操作就完成了。

參考連結

雲監控資料導入：
智能異常分析概述： https://help.aliyun.com/document_detail/356467.html
雲伺服器ECS監控名額： https://www.alibabacloud.com/help/zh/doc-detail/162844.htm
新版告警：

智能巡檢雲監控名額的最佳實踐

背景介紹

時序存儲的介紹

智能異常分析介紹

場景實驗

智能監控雲監控名額

雲監控資料接入

雲監控資料預覽

篩選監控名額

配置智能巡檢任務

配置告警

參考連結

繼續閱讀

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

筆試面試題目：滑動視窗(二)

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

資料結構與算法（27）——排序（二）

nginx 安裝錯誤資訊解決

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

sqlServer根據經緯查距離

hdu7108哈希