- 服務可靠度層級模型
讀書筆記(SRE:Google運維解密):第10章 基于時間序列資料進行有效報警 -
監控
(a)埋點
(b)名額收集:名額合成
(c)時間序列資料存儲
(d)規則計算
(e)報警
-
彙總計算(aggregation),是分布式環境中不可缺少的一環。彙總計算過程可以将一個任務的所有執行個體中的某個time-series相加。通過計算總數,我們就可以計算整體速率(rate)。
例如:一個任務在整個資料中心中的整體每秒查詢率(QPS)需要通過所有執行個體的查詢計數器[14]的變化率的總和[15]來計算。
-
命運共享(share of fate)理念
建議将所有必要的狀态放在通信端點,這些狀态用于維護一個互動的通信關聯(例如虛拟連接配接)。由于這個原因,導緻通信失效的情況也會導緻一個或更多端點失效,這樣顯然會導緻整個通信的失敗。命運共享是一種通過虛拟連接配接(例如,由TCP實作的連接配接)維持活動的設計理念,即便網絡在一段時間内失效。命運共享也支援一種“帶智能終端主機的啞網絡”模型。