作為一個雲上運維的新人,面對阿裡雲上複雜的生态系統,ECS、RDS、負載均衡、各種資料庫等等,每一個服務下面都有無數的名額需要了解,那麼如此高的學習成本,要花費多少時間才能完成準确建立起基本的雲上監控報警體系,避免遺漏重要名額的報警呢?
業務快速疊代的過程中,購買的大量伺服器如何快速被現有監控體系覆寫呢?
面對雲監控應用分組、報警規則、各種雲産品監控等等一系列進階功能,如何在學習過程中先對運維監控快速兜底呢?
如果你有以上煩惱,那麼請繼續閱讀本文。10秒中讓您的服務擁有最低成本的基礎保護。在業務出問題時,讓雲監控通知你,而不是讓你的老闆或者客戶通知你。

點選服務右側的下拉按鈕,可能快速檢視<一鍵告警>給您自動生成的規則,當然這些規則都是我們的運維工程師千錘百煉出來的精華。如圖示例ECS:
請注意:一鍵告警提供的規則針對您名下的所有資源生效。也就是說您名下所有的ECS均已開啟相應的名額監控,而僅僅隻消耗4條報警規則!
目前已接入一鍵告警的服務,以及預設規則如下所示:
服務名稱
名額名稱
規則描述
ECS
CPUUtilization(CPU使用率)
一分鐘内最大值>90%,連續五次,沉默時間1小時,郵件通知
vm.DiskUtilization(磁盤使用率)
一分鐘内最大值>90%,連續五次,沉默時間1小時,短信、郵件通知
vm.MemoryUtilization(記憶體使用率)
InternetOutRate_Percent(公網流出帶寬使用率)
RDS
CpuUsage(CPU使用率)
五分鐘内最大值>80%,連續五次,沉默時間1小時,郵件通知
DiskUsage(磁盤使用率)
五分鐘内最大值>80%,連續五次,沉默時間1小時,短信、郵件通知
IOPSUsage(IOPS使用率)
ConnectionUsage(連接配接數使用率)
五分鐘内最大值>80%,連續五次,沉默時間1小時, 郵件通知
DataDelay(隻讀執行個體延遲)
五分鐘内最大值>5,連續五次,沉默時間1小時,郵件通知
SLB
DropConnection (監聽每秒丢失連接配接數)
一分鐘内最大值>0,連續五次,沉默時間1小時,郵件通知
DropTrafficRX(監聽每秒丢失入bit數)
DropTrafficTX(監聽每秒丢失出bit數 )
Redis
CpuUsage(CPU使用率 )
一分鐘内最大值>80%,連續五次,沉默時間1小時,郵件通知
MemoryUsage(記憶體使用率)
IntranetInRatio(寫入帶寬使用率)
IntranetOutRatio(讀取帶寬使用率)
MongoDB(副本集)
MemoryUtilization(記憶體使用百分比)
DiskUtilization(磁盤使用率)
IOPSUtilization(IOPS使用率)
ConnectionUtilization(連接配接數使用率)
MongoDB (分片叢集)
ShardingCPUUtilization (CPU使用率)
ShardingMemoryUtilization(記憶體使用百分比)
ShardingDiskUtilization(磁盤使用率)
ShardingIOPSUtilization(IOPS使用率)
ShardingConnectionUtilization(連接配接數使用率)
HBase
LoadPerCpu
五分鐘内最大值>3,連續三次,沉默時間1小時,郵件通知
cpu_idle
五分鐘内最大值<10,連續三次,沉默時間1小時,郵件通知
compactionQueueSize
五分鐘内最大值>2000,連續三次,沉默時間1小時,郵件通知
rs_handlerQueueSize
五分鐘内最大值>1000,連續三次,沉默時間1小時,郵件通知
CapacityUsedPercent
五分鐘内最大值>0.8,連續三次,沉默時間1小時,郵件通知
zookeeper_tcp_count
ElasticSearch
ClusterStatus(叢集狀态)
一分鐘内最大值>2,連續十次,沉默時間1小時,郵件通知
NodeDiskUtilization (節點磁盤使用率 )
一分鐘内最大值>75%,連續十次,沉默時間1小時,郵件通知
NodeHeapMemoryUtilization(節點HeapMemory使用率)
一分鐘内最大值>85%,連續十次,沉默時間1小時,郵件通知
Opensearch開放搜尋
DocSizeRatiobyApp (存儲容量使用率)
十分鐘内最大值>85%,連續一次,沉默時間1小時,郵件通知
ComputeResourceRatiobyApp(計算資源使用率)
maven依賴
查詢已開啟産品清單
查詢Action
product:Cms
version: 2017-03-01
action: ListProductOfActiveAlert
傳回值
查詢告警規則清單
action: ListActiveAlertRule
查詢參數
字段
類型
是否必須
描述
product
string
是
雲伺服器ECS(ecs)、HBase(hbase)、雲資料庫MongoDB(mongodb)、雲資料庫MongoDB叢集版(mongodb_sharding)、雲資料庫RDS版(rds)、雲資料庫Redis版(redisa)、負載均衡(slb)、ES(elasticseearch)、OpenSearch(opensearch)。參數為括号内值。
例子:
啟用一鍵報警
action: EnableActiveAlert
否
産品名 ecs/slb/mongodb/hbase/mongodb_sharding/rds/redisa等
錯誤碼資訊
禁用一鍵報警
action: DisableActiveAlert
例子: