天天看點

10秒建構阿裡雲産品的第一道監控屏障

作為一個雲上運維的新人,面對阿裡雲上複雜的生态系統,ECS、RDS、負載均衡、各種資料庫等等,每一個服務下面都有無數的名額需要了解,那麼如此高的學習成本,要花費多少時間才能完成準确建立起基本的雲上監控報警體系,避免遺漏重要名額的報警呢?

業務快速疊代的過程中,購買的大量伺服器如何快速被現有監控體系覆寫呢?

面對雲監控應用分組、報警規則、各種雲産品監控等等一系列進階功能,如何在學習過程中先對運維監控快速兜底呢?

如果你有以上煩惱,那麼請繼續閱讀本文。10秒中讓您的服務擁有最低成本的基礎保護。在業務出問題時,讓雲監控通知你,而不是讓你的老闆或者客戶通知你。

10秒建構阿裡雲産品的第一道監控屏障

點選服務右側的下拉按鈕,可能快速檢視<一鍵告警>給您自動生成的規則,當然這些規則都是我們的運維工程師千錘百煉出來的精華。如圖示例ECS:

10秒建構阿裡雲産品的第一道監控屏障

請注意:一鍵告警提供的規則針對您名下的所有資源生效。也就是說您名下所有的ECS均已開啟相應的名額監控,而僅僅隻消耗4條報警規則!

目前已接入一鍵告警的服務,以及預設規則如下所示:

服務名稱

名額名稱

規則描述

ECS

CPUUtilization(CPU使用率)

一分鐘内最大值>90%,連續五次,沉默時間1小時,郵件通知

vm.DiskUtilization(磁盤使用率)

一分鐘内最大值>90%,連續五次,沉默時間1小時,短信、郵件通知

vm.MemoryUtilization(記憶體使用率)

InternetOutRate_Percent(公網流出帶寬使用率)

RDS

CpuUsage(CPU使用率)

五分鐘内最大值>80%,連續五次,沉默時間1小時,郵件通知

DiskUsage(磁盤使用率)

五分鐘内最大值>80%,連續五次,沉默時間1小時,短信、郵件通知

IOPSUsage(IOPS使用率)

ConnectionUsage(連接配接數使用率)

五分鐘内最大值>80%,連續五次,沉默時間1小時, 郵件通知

DataDelay(隻讀執行個體延遲)

五分鐘内最大值>5,連續五次,沉默時間1小時,郵件通知

SLB

DropConnection (監聽每秒丢失連接配接數)

一分鐘内最大值>0,連續五次,沉默時間1小時,郵件通知

DropTrafficRX(監聽每秒丢失入bit數)

DropTrafficTX(監聽每秒丢失出bit數 )

Redis

CpuUsage(CPU使用率 )

一分鐘内最大值>80%,連續五次,沉默時間1小時,郵件通知

MemoryUsage(記憶體使用率)

IntranetInRatio(寫入帶寬使用率)

IntranetOutRatio(讀取帶寬使用率)

MongoDB(副本集)

MemoryUtilization(記憶體使用百分比)

DiskUtilization(磁盤使用率)

IOPSUtilization(IOPS使用率)

ConnectionUtilization(連接配接數使用率)

MongoDB (分片叢集)

ShardingCPUUtilization (CPU使用率)

ShardingMemoryUtilization(記憶體使用百分比)

ShardingDiskUtilization(磁盤使用率)

ShardingIOPSUtilization(IOPS使用率)

ShardingConnectionUtilization(連接配接數使用率)

HBase

LoadPerCpu

五分鐘内最大值>3,連續三次,沉默時間1小時,郵件通知

cpu_idle

五分鐘内最大值<10,連續三次,沉默時間1小時,郵件通知

compactionQueueSize

五分鐘内最大值>2000,連續三次,沉默時間1小時,郵件通知

rs_handlerQueueSize

五分鐘内最大值>1000,連續三次,沉默時間1小時,郵件通知

CapacityUsedPercent

五分鐘内最大值>0.8,連續三次,沉默時間1小時,郵件通知

zookeeper_tcp_count

ElasticSearch

ClusterStatus(叢集狀态)

一分鐘内最大值>2,連續十次,沉默時間1小時,郵件通知

NodeDiskUtilization (節點磁盤使用率 )

一分鐘内最大值>75%,連續十次,沉默時間1小時,郵件通知

NodeHeapMemoryUtilization(節點HeapMemory使用率)

一分鐘内最大值>85%,連續十次,沉默時間1小時,郵件通知

Opensearch開放搜尋

DocSizeRatiobyApp (存儲容量使用率)

十分鐘内最大值>85%,連續一次,沉默時間1小時,郵件通知

ComputeResourceRatiobyApp(計算資源使用率)

maven依賴
查詢已開啟産品清單

查詢Action

product:Cms

version: 2017-03-01

action: ListProductOfActiveAlert

傳回值

查詢告警規則清單

action: ListActiveAlertRule

查詢參數

字段

類型

是否必須

描述

product

string

雲伺服器ECS(ecs)、HBase(hbase)、雲資料庫MongoDB(mongodb)、雲資料庫MongoDB叢集版(mongodb_sharding)、雲資料庫RDS版(rds)、雲資料庫Redis版(redisa)、負載均衡(slb)、ES(elasticseearch)、OpenSearch(opensearch)。參數為括号内值。

例子:

啟用一鍵報警

action: EnableActiveAlert

産品名 ecs/slb/mongodb/hbase/mongodb_sharding/rds/redisa等

錯誤碼資訊

禁用一鍵報警

action: DisableActiveAlert

例子: