1. 子產品介紹
- 儀表盤:監控全局、服務、執行個體、
幾個次元的運作狀态。endpoint
- 拓撲圖:以拓撲圖的方式展現服務直接的關系,并以此為入口檢視告警、調用鍊、服務狀态等資訊
- 追蹤:以接口清單的方式展現,追蹤接口内部調用過程,可以通過
查詢,進行分布式叢集的日志檢視及問題排查。traceid
- 性能剖析:單獨端點進行采樣分析,并可檢視堆棧資訊。
- 日志:包括了
與browser
日志集合。service
- 告警:觸發告警的告警清單,包括執行個體,請求逾時等。
2. 儀表盤
- 第一欄:監控、資料庫、容器、
vm
- 第二欄:可以選擇某個次元展示不同服務/執行個體/端點的資料
- 第三欄:展示的不同次元,全局、服務、執行個體、端點的面闆。
2.1 APM
2.1.1 Global
-
:服務平均每分鐘請求數。**Services load(CPM-callsperminute)**
-
:慢響應服務,機關**Slow Services(ms)**
。ms
-
:**Un-Health services(Apdex)**
性能名額,Apdex
為滿分。1
-
:全局次元的慢響應端點(**Slow Endpoints(ms)**
)。例如一個接口,是全局API
的資料,通過這個可以觀測平台性能情況。TopN
-
:全局響應延遲百分位數統計,機關**Global Response Latency(percentileinms)**
。ms
表示采集樣本中某些值的占比,
Skywalking
有
**P50、P75、P90、P95、P99**
一些列值。
圖中的
**P99:950**
表示
**99%**
請求的響應時間在
**950ms**
**以内。**而
99%
一般用于抛掉一些極端值,表示絕大多數請求。
-
:服務響應時間熱力分布圖,根據時間段内不同響應時間的數量顯示顔色深度**GlobalHeatmap**
可譯為熱力圖、熱度圖都可以,圖中顔色越深,表示請求數越多,這和
GitHubContributions
很像,
commit
越多,顔色越深。橫坐标是響應時間,滑鼠放上去,可以看到具體的數量。通過熱力圖,一方面可以直覺感受平台的整體流量,另一方面也可以感受整體性能。
2.1.2 Service
-
**(數字):**目前服務的評分**Service Apdex**
-
**(折線圖):**一段時間内**Service Apdex**
評分Apdex
-
:平均響應延時,機關**Service Avg Response Times(ms)**
ms
-
:百分比響應延時,參考**Service Response Time Percentile**
GlobalResponseLatency(percentileinms)
-
**(數字):**請求成功率**Successful Rate**
-
**(折線圖):**一段時間的請求成功率**Successful Rate**
-
**(數字):**每分鐘請求數,**Servce Load(CPM/PPM)**
-
**(折線圖):**不同時間的每分鐘請求數**Servce Load(CPM/PPM)**
-
**:**該名額隻适用于TCP服務。目前服務的吞吐量。**Service Throughput(Bytes)**
-
**:**每個服務執行個體的每分鐘請求數**Servce Instances Load(CPM/PPM)**
-
**:**每個服務執行個體的最大延時**Show Service Instance**
-
**:**每個服務執行個體的請求成功率**Service Instance Successful Rate**
2.1.3 Instance
-
**:**目前執行個體的每分鐘請求數**Service Instance Load(CPM/PPM)**
-
**:**該名額隻适用于**Service Instance Throughput(Bytes)**
服務。目前服務執行個體的吞吐量。TCP
-
**:**目前執行個體的請求成功率**Service Instance Successful Rate(%)**
-
**:**目前執行個體的響應延時**Service Instance Latency(ms)**
-
:**JVM CPU(Java Service)**
占用jvm
的百分比CPU
-
:**JVM Memory(Java Service)**
記憶體占用大小,機關JVM
,包括堆記憶體,與堆外記憶體(直接記憶體)m
-
:**JVM GC Time(ms)**
垃圾回收時間,包含JVM
和YGC
OGC
-
:**JVM GC Count**
垃圾回收次數,包含JVM
YGC``和``OGC
-
:**JVM Thread Count**
JavaService
- 其他參數為
的東西.net
2.1.4 Endpoint
-
:每個端點(**Endpoint Load in Current Service(CPM/PPM)**
)每分鐘請求數API
-
:每個端點(**Slow Endpoints in Current Service(ms)**
)的最慢響應請求時間,機關API
ms
-
:每個端點(**Successful Rate in Current Service(%)**
)的請求成功率API
某個端點:
-
:目前端點每個時間段的請求資料**Endpoint Load**
-
:目前端點每個時間段的請求行響應時間**Endpoint Avg Response Time**
-
:目前端點每個時間段的響應時間占比**Endpoint Response Time Percentile(ms)**
-
:目前端點每個時間段的請求成功率**Endpoint Successful Rate(%)**
2.2 Database
-
:目前資料庫事件平均響應時間,機關ms**Database Avg Response Time(ms)**
-
:目前資料庫通路成功率**Database Access Successful Rate(%)**
-
:目前資料庫每分鐘請求數**Database Traffic(CPM:CallsPerMinute)**
-
:資料庫不同比例的響應時間,機關ms**Database Access Latency Percentile(ms)**
-
:前N個慢查詢,機關ms**Slow Statements(ms)**
-
:所有資料庫中請求量排序**All Database Loads(CPM:CallsPerMinute)**
-
:所有資料庫不健康排名,請求成功率排名,失敗最多的請求在最上。**Un-Health Databases**
3. 拓撲圖
-
**:**選擇服務組**AllGroups**
-
**:**選擇服務**AllServices**
-
**:**建立新的服務組**CreateGroup**
- **服務引用拓撲圖:**展示服務之間的調用關系,以及伺服器的健康狀态。
3.1 執行個體資訊面闆
- 目前服務:可選擇具體服務
- 目前端點:可選擇具體端點
- 目前深度:可以選擇展示的調用深度
- 平均響應時間
- 平均吞吐量
- 平均
SLA
- 相應百分比
2-告警面闆
3-追蹤資訊面闆
4-服務實力性能狀态面闆
5-Endpoint(API)面闆
4. 追蹤
5. 性能剖析
6. 日志
未啟用
7. 告警
- 服務的平均響應時間在最近10分鐘内有3分鐘超過1秒
- 服務的成功率在最近10分鐘内有2分鐘低于80%
- 執行個體的平均響應時間在最近10分鐘内有2分鐘超過1秒
- 資料庫的平均響應時間在最近10分鐘内有2分鐘超過1秒
- 端點的平均響應時間在最近10分鐘内有2分鐘超過1秒
- 服務在最近10分鐘内有2分鐘超過1秒平均響應時間超過1秒并且成功率低于80%
8. 名詞解釋
-
**:**對于**CPM/PPM**
、HTTP1/2
、gRPC
服務,這意味着每分鐘調用數(RPC
),對于TCP服務,這意味着每分鐘包數(CPM:CallsPerMinute
)PPM:PacketsPerMinute
-
**:**表示具體的服務,例如一個接口或一個定時任務。**Endpoint**
- **标簽:**我們可以通過
中配置标記。core/default/searchableTracesTages