天天看點

分布式鍊路追蹤- SkyWalking使用手冊

1. 子產品介紹

分布式鍊路追蹤- SkyWalking使用手冊
  • 儀表盤:監控全局、服務、執行個體、​

    ​endpoint​

    ​幾個次元的運作狀态。
  • 拓撲圖:以拓撲圖的方式展現服務直接的關系,并以此為入口檢視告警、調用鍊、服務狀态等資訊
  • 追蹤:以接口清單的方式展現,追蹤接口内部調用過程,可以通過​

    ​traceid​

    ​查詢,進行分布式叢集的日志檢視及問題排查。
  • 性能剖析:單獨端點進行采樣分析,并可檢視堆棧資訊。
  • 日志:包括了​

    ​browser​

    ​​與​

    ​service​

    ​日志集合。
  • 告警:觸發告警的告警清單,包括執行個體,請求逾時等。

2. 儀表盤

分布式鍊路追蹤- SkyWalking使用手冊
  • 第一欄:監控、資料庫、容器、​

    ​vm​

  • 第二欄:可以選擇某個次元展示不同服務/執行個體/端點的資料
  • 第三欄:展示的不同次元,全局、服務、執行個體、端點的面闆。

2.1 APM

2.1.1 Global

分布式鍊路追蹤- SkyWalking使用手冊
  • ​**Services load(CPM-callsperminute)**​

    ​:服務平均每分鐘請求數。
  • ​**Slow Services(ms)**​

    ​​:慢響應服務,機關​

    ​ms​

    ​。
  • ​**Un-Health services(Apdex)**​

    ​:​

    ​Apdex​

    ​​性能名額,​

    ​1​

    ​為滿分。
  • ​**Slow Endpoints(ms)**​

    ​​:全局次元的慢響應端點(​

    ​API​

    ​​)。例如一個接口,是全局​

    ​TopN​

    ​的資料,通過這個可以觀測平台性能情況。
  • ​**Global Response Latency(percentileinms)**​

    ​​:全局響應延遲百分位數統計,機關​

    ​ms​

    ​。
分布式鍊路追蹤- SkyWalking使用手冊

表示采集樣本中某些值的占比,​

​Skywalking​

​​有​

​**P50、P75、P90、P95、P99**​

​​一些列值。

圖中的​

​**P99:950**​

​表示​

​**99%**​

​請求的響應時間在​

​**950ms**​

​​**以内。**而​

​99%​

​一般用于抛掉一些極端值,表示絕大多數請求。

  • ​**GlobalHeatmap**​

    ​:服務響應時間熱力分布圖,根據時間段内不同響應時間的數量顯示顔色深度

可譯為熱力圖、熱度圖都可以,圖中顔色越深,表示請求數越多,這和​

​GitHubContributions​

​​很像,​

​commit​

​越多,顔色越深。橫坐标是響應時間,滑鼠放上去,可以看到具體的數量。通過熱力圖,一方面可以直覺感受平台的整體流量,另一方面也可以感受整體性能。

2.1.2 Service

分布式鍊路追蹤- SkyWalking使用手冊
  • ​**Service Apdex**​

    ​**(數字):**目前服務的評分
  • ​**Service Apdex**​

    ​​**(折線圖):**一段時間内​

    ​Apdex​

    ​評分
  • ​**Service Avg Response Times(ms)**​

    ​​:平均響應延時,機關​

    ​ms​

  • ​**Service Response Time Percentile**​

    ​​:百分比響應延時,參考​

    ​GlobalResponseLatency(percentileinms)​

  • ​**Successful Rate**​

    ​**(數字):**請求成功率
  • ​**Successful Rate**​

    ​**(折線圖):**一段時間的請求成功率
  • ​**Servce Load(CPM/PPM)**​

    ​**(數字):**每分鐘請求數,
  • ​**Servce Load(CPM/PPM)**​

    ​**(折線圖):**不同時間的每分鐘請求數
  • ​**Service Throughput(Bytes)**​

    ​**:**該名額隻适用于TCP服務。目前服務的吞吐量。
  • ​**Servce Instances Load(CPM/PPM)**​

    ​**:**每個服務執行個體的每分鐘請求數
  • ​**Show Service Instance**​

    ​**:**每個服務執行個體的最大延時
  • ​**Service Instance Successful Rate**​

    ​**:**每個服務執行個體的請求成功率

2.1.3 Instance

分布式鍊路追蹤- SkyWalking使用手冊
  • ​**Service Instance Load(CPM/PPM)**​

    ​**:**目前執行個體的每分鐘請求數
  • ​**Service Instance Throughput(Bytes)**​

    ​​**:**該名額隻适用于​

    ​TCP​

    ​服務。目前服務執行個體的吞吐量。
  • ​**Service Instance Successful Rate(%)**​

    ​**:**目前執行個體的請求成功率
  • ​**Service Instance Latency(ms)**​

    ​**:**目前執行個體的響應延時
  • ​**JVM CPU(Java Service)**​

    ​:​

    ​jvm​

    ​​占用​

    ​CPU​

    ​的百分比
  • ​**JVM Memory(Java Service)**​

    ​:​

    ​JVM​

    ​​記憶體占用大小,機關​

    ​m​

    ​,包括堆記憶體,與堆外記憶體(直接記憶體)
  • ​**JVM GC Time(ms)**​

    ​:​

    ​JVM​

    ​​垃圾回收時間,包含​

    ​YGC​

    ​​和​

    ​OGC​

  • ​**JVM GC Count**​

    ​:​

    ​JVM​

    ​​垃圾回收次數,包含​

    ​YGC``和``OGC​

  • ​**JVM Thread Count**​

    ​:​

    ​JavaService​

  • 其他參數為​

    ​.net​

    ​的東西

2.1.4 Endpoint

分布式鍊路追蹤- SkyWalking使用手冊
  • ​**Endpoint Load in Current Service(CPM/PPM)**​

    ​​:每個端點(​

    ​API​

    ​)每分鐘請求數
  • ​**Slow Endpoints in Current Service(ms)**​

    ​​:每個端點(​

    ​API​

    ​​)的最慢響應請求時間,機關​

    ​ms​

  • ​**Successful Rate in Current Service(%)**​

    ​​:每個端點(​

    ​API​

    ​)的請求成功率

某個端點:

  • ​**Endpoint Load**​

    ​:目前端點每個時間段的請求資料
  • ​**Endpoint Avg Response Time**​

    ​:目前端點每個時間段的請求行響應時間
  • ​**Endpoint Response Time Percentile(ms)**​

    ​:目前端點每個時間段的響應時間占比
  • ​**Endpoint Successful Rate(%)**​

    ​:目前端點每個時間段的請求成功率

2.2 Database

分布式鍊路追蹤- SkyWalking使用手冊
  • ​**Database Avg Response Time(ms)**​

    ​:目前資料庫事件平均響應時間,機關ms
  • ​**Database Access Successful Rate(%)**​

    ​:目前資料庫通路成功率
  • ​**Database Traffic(CPM:CallsPerMinute)**​

    ​:目前資料庫每分鐘請求數
  • ​**Database Access Latency Percentile(ms)**​

    ​:資料庫不同比例的響應時間,機關ms
  • ​**Slow Statements(ms)**​

    ​:前N個慢查詢,機關ms
  • ​**All Database Loads(CPM:CallsPerMinute)**​

    ​:所有資料庫中請求量排序
  • ​**Un-Health Databases**​

    ​:所有資料庫不健康排名,請求成功率排名,失敗最多的請求在最上。

3. 拓撲圖

分布式鍊路追蹤- SkyWalking使用手冊
  • ​**AllGroups**​

    ​**:**選擇服務組
  • ​**AllServices**​

    ​**:**選擇服務
  • ​**CreateGroup**​

    ​**:**建立新的服務組
  • **服務引用拓撲圖:**展示服務之間的調用關系,以及伺服器的健康狀态。

3.1 執行個體資訊面闆

分布式鍊路追蹤- SkyWalking使用手冊
  • 目前服務:可選擇具體服務
  • 目前端點:可選擇具體端點
  • 目前深度:可以選擇展示的調用深度
  • 平均響應時間
  • 平均吞吐量
  • 平均​

    ​SLA​

  • 相應百分比

2-告警面闆

3-追蹤資訊面闆

4-服務實力性能狀态面闆

5-Endpoint(API)面闆

4. 追蹤

分布式鍊路追蹤- SkyWalking使用手冊

5. 性能剖析

分布式鍊路追蹤- SkyWalking使用手冊

6. 日志

未啟用

7. 告警

  • 服務的平均響應時間在最近10分鐘内有3分鐘超過1秒
  • 服務的成功率在最近10分鐘内有2分鐘低于80%
  • 執行個體的平均響應時間在最近10分鐘内有2分鐘超過1秒
  • 資料庫的平均響應時間在最近10分鐘内有2分鐘超過1秒
  • 端點的平均響應時間在最近10分鐘内有2分鐘超過1秒
  • 服務在最近10分鐘内有2分鐘超過1秒平均響應時間超過1秒并且成功率低于80%

8. 名詞解釋

  • ​**CPM/PPM**​

    ​​**:**對于​

    ​HTTP1/2​

    ​​、​

    ​gRPC​

    ​​、​

    ​RPC​

    ​​服務,這意味着每分鐘調用數(​

    ​CPM:CallsPerMinute​

    ​​),對于TCP服務,這意味着每分鐘包數(​

    ​PPM:PacketsPerMinute​

    ​)
  • ​**Endpoint**​

    ​**:**表示具體的服務,例如一個接口或一個定時任務。
  • **标簽:**我們可以通過​

    ​core/default/searchableTracesTages​

    ​中配置标記。

9. 特殊說明