阿裡雲雲原生可觀測 ARMS 率先斬獲「根因分析技術」先進級認證
7 月 25 日,由中國信通院發起的“2023 可信雲-系統穩定性”首批評估結果在可信雲大會現場公布,應用實時監控服務 ARMS 斬獲《可觀測性标準體系要求 - 根因分析技術分級能力要求》“先進級”認證,使阿裡雲成為信通院雲服務“穩定性守護者”企業代表。
雲原生技術正在激活應用建構新範式,構築企業業務運作新基石。在推動各行各業擁抱雲原生、用技術加速創新的過程中,阿裡雲雲原生緻力于為企業提供系統穩定、資源彈性、應用靈活、業務智能、可信安全的五大核心價值,通過輸出先進的技術服務和完整的産品體系,讓企業放心用雲、用好雲。
同時,阿裡雲雲原生堅持與業界同行,積極參與信通院各項雲原生規模化落地标準制定和推廣的共建工作中。本次阿裡雲雲原生作為參編方協同建構首個信通院“可觀測性标準體系”,為業界提供可觀測性建設評估與度量方案,促進上層業務穩定性和業務連續性,提升應用的風險可控能力。
應用實時監控服務 ARMS 獲根因分析技術能力“先進級”認證
本次可信雲的可觀測性标準體系根因分析技術分級能力要求标準涵蓋了資料采集、決策分析、展示輸出和配置管理 4 大類别,共計 112 個測試項。其中,應用實時監控服務 ARMS 在此次根因分析标準評測中通過 109 個用例,在資料的采集、根因類型、分析方式、異常告警及方案推薦等表現亮眼,展現出阿裡雲雲原生可觀測在資料采集能力、根因分析能力、展示輸出能力均達到行業領先水準。最終應用實時監控服務 ARMS 通過了《可觀測性标準體系要求 - 根因分析技術分級能力要求》标準的評估,成功獲評為首批先進級!
ARMS Insights 是應用實時監控服務 ARMS 結合可觀測領域的各類共性問題,集核心之力打造的 AIOps 拳頭級産品功能。ARMS Insights 所具備的智能巡檢、診斷能力,幫助企業減少問題發現配置複雜度,同時協助定位問題并縮短問題定位時間。ARMS Insights 利用應用實時監控服務 ARMS 豐富的資料源,通過自研的檢測算法模型、智能歸因模型,輔以代碼級的專家插件,為企業提供一鍵式智能巡檢和根因定位功能。
使用者可以在 ARMS 控制台的智能洞察開啟該功能。開啟之後,ARMS Insights 将對接入到 ARMS 平台的應用等開始進行自動化的巡檢。巡檢到問題後,則自動進行根因定位分析。下圖展示了某使用者開啟後收到的一些異常事件清單情況。點選檢視詳情,則可以看到目前異常事件具體的異常情況以及對應根因分析結論。
除了開箱即用的智能巡檢和根因分析,ARMS Insights 開放檢測範圍供使用者根據需要自行定義修改。
使用者也可以在具體的某一種巡檢配置場景下,如:是否隻需要 TopN 以及 TopN 接口設定,應用/接口黑名單,以及檢測門檻值和異常門檻值的定制化配置。
ARMS Insights 智能巡檢
針對傳統監控通過配置大量固定門檻值報警發現問題方式有耗時、耗力、不準确的缺陷,Insights 智能巡檢方案預設對所有接入 ARMS 的應用自動建立巡檢定時任務。通過對應用性能名額 RT(平均響應時間)、Error(應用錯誤數)、QPS(平均請求量)建立特征名額,進而實時産生異常事件,使用者可以通過訂閱産生相應的報警。除此外,Insights 還支援對基礎設施名額如:JVM 名額異常、流量不均等, 對應用執行個體離群等自動進行檢測。
1. 錯誤率異常檢測
2. 響應時間突增異常檢測
3. 執行個體請求量離群異常檢測
4. 流量突增異常檢測
5. 新增異常預警
總結來說,ARMS Insights 智能巡檢具備專業化、自動化、智能化的三大特點。ARMS Insights 巡檢采用了多種業界通用算法,結合自研算法在“投票機制”、“分而治之”、“長短周期特征結合”思想指導下打造高召回,高準确檢測能力,并提供智能異常區間定位,智能異常等級等特性,旨在為使用者打造從發現問題到分析問題、定位問題的全鍊路閉環巡檢能力。
ARMS Insights 根因定位
Insights 智能診斷一方面通過通過專家系統的經驗模拟開發和運維人員的排查流程,另一方面通過算法進行排查流程中的決策,最後結合特性插件給出可能的根因幫助開發和運維人員減少根因定位的時間。
- 診斷模闆:構模組化闆化診斷分析過程
- 算法決策:智能歸因算法模型助力決策
- 特征插件:深入到代碼級的根因結論
舉個例子:應用 A 部署在容器服務上,同時他自身對外部服務有依賴,在某個時刻應用 A 平均響應時間開始突增,如何進行根因定位,假設應用 A 的依賴拓撲如下圖所示:
傳統的監控系統根因定位流程如下:首先需要識别應用A基礎設施是否有問題包括 CPU、記憶體、Load 等名額是否異常,其次需要找到熱點接口可能是一個或多個,以上圖 A-2 為例來看,此時需要排查接口 A-2 的調用鍊路可以發現其依賴應用 B 的 B-1 接口和應用 C 的 C-1 接口。此時需要從鍊路以及名額上對比是否繼續下鑽分析以及針對 B-1 還是 C-1 進行分析,同理後續分析過程中遇到資料庫問題需要考慮是否是資料庫連接配接池問題、慢 SQL 問題還是資料庫服務端的問題等。可以看到整個分析過程比較繁雜,同時需要有一定的運維經驗。
具體到産品功能頁面來看,ARMS Insights 支援多種場景下,到代碼級的根因定位分析:
1. 響應時間突增,根因為調用本地方法慢
點選疑似根因選項,可以繼續檢視目前根因對象的具體資訊以及與之相關的方法棧、SQL 調用等資訊。
2. 錯誤率異常,根因為本地方法出錯
3. 錯誤率異常,根因為調用資料庫出錯
ARMS Insights 目前支援多種場景的代碼及根因結論,總結如下:
特征插件場景 | 分析結果 |
資料庫連接配接擷取慢場景 |
|
資料庫整體執行慢 |
|
通路遠端 URL 慢場景 |
|
異常數突增場景 |
|
本地方法執行慢場景 |
|