天天看點

讀書筆記(SRE:Google運維解密):第10章 基于時間序列資料進行有效報警

  • 服務可靠度層級模型
    讀書筆記(SRE:Google運維解密):第10章 基于時間序列資料進行有效報警
  • 監控

    (a)埋點

    (b)名額收集:名額合成

    (c)時間序列資料存儲

    (d)規則計算

    (e)報警

  • 彙總計算(aggregation),是分布式環境中不可缺少的一環。彙總計算過程可以将一個任務的所有執行個體中的某個time-series相加。通過計算總數,我們就可以計算整體速率(rate)。

    例如:一個任務在整個資料中心中的整體每秒查詢率(QPS)需要通過所有執行個體的查詢計數器[14]的變化率的總和[15]來計算。

  • 命運共享(share of fate)理念

    建議将所有必要的狀态放在通信端點,這些狀态用于維護一個互動的通信關聯(例如虛拟連接配接)。由于這個原因,導緻通信失效的情況也會導緻一個或更多端點失效,這樣顯然會導緻整個通信的失敗。命運共享是一種通過虛拟連接配接(例如,由TCP實作的連接配接)維持活動的設計理念,即便網絡在一段時間内失效。命運共享也支援一種“帶智能終端主機的啞網絡”模型。