天天看點

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

原創 吾銘、豆豆 淘系技術  2020-12-18

MTSC2020中國網際網路測試開發大會深圳站,于 2020 年 11 月 20 日至 21 日在深圳寶立方國際酒店召開,為中國品質保證行業奉上一場為期 2 天的技術盛宴,500+ 來自世界各地的測試精英們彙聚一堂探讨交流。來自阿裡巴巴淘系技術部的董福銘(吾銘)、黃俊(豆豆)在主會場分享議題《手淘AIOPS實戰-消息全鍊路智能監控》,現場反響非常熱烈。

中國網際網路測試開發大會 Mobile Testing Summit China(簡稱 MTSC)是由國内最大的移動測試技術社群 TesterHome 發起的軟體測試行業技術會議,大會以“軟體品質保障體系和測試研發技術交流”為主要目的。MTSC 大會于 2015 年舉辦第一屆至今,已成功舉辦了六屆,共有 1000+ 家企業,10000+ 測試工程師、測試經理、CTO 參會,受到了全行業的廣泛關注,是中國網際網路品質保證行業的頂級會議。

★  議題簡介:

《手淘AIOPS實戰-消息全鍊路智能監控》介紹如何通過SDK實作應用内鍊路日志聚合、采樣率控制、統一降級開關等功能,打通用戶端到服務端鍊路,實作IM端到端秒級排查。通過實時計算實作消息核心名額到達率/時延的實時監控。使用AI檢測算法,替代傳統的規則監控方案,解決規則告警準确率低、時效性低、規則配置複雜與耗費人力等諸多問題。通過NLP進行輿情智能分類,并結合全鍊路資料對預警問題進行分析定位,打造全鍊路智能監控排查平台。

★  業界點評:

艾輝(融360進階技術經理、《機器學習測試入門與實踐》作者) :

  • 手淘AIOps實戰案例的技術設計及應用效果讓人印象深刻!
  • 差別于一般的鍊路監控,該方案用多種算法檢測代替規則檢測,在準确率、召回率等方面都有大幅提升。
  • Holmes異常檢測平台更是實作了算法模型在鍊路異常檢測場景的工程産品化。
  • 很值得業界同行朋友們學習借鑒。

孔令雲(美柚測試總監):

手淘AIOps利用AI技術,在消息全鍊路監測中實作了百億級消息資料的實時監控和異常檢測,極大提高了消息到達率、及時性,為消息鍊路品質保障提供了堅實的技術支撐,同時也為行業樹立了AI測試應用的光明燈塔。

前言

手淘App作為雙十一最核心的消費者購物陣地,其中必然離不開第三個Tab頁-消息,消息的價值在于打造新零售業務商業連接配接,幫助消費者進消費決策。每天消費者和商家溝通商品相關的價格、品質和型号以及款式和各種交易咨詢及售後服務等;來自天南地北的淘友齊聚在直播間和群聊,不停的點贊,分享和蓋樓;每天消費者接收着品牌号、官方号以及系統物流通知,平台營銷活動通知,不想錯過每一有價值的咨詢和活動優惠;最近幾年大促有很多新穎的互動玩法,從“戰隊群”到“親情号”再到今年的“養貓互助遊戲”,都離不開消息中台的支撐,同時也給消息穩定性保障帶來了壓力和挑戰,消息品質團隊在傳統保障政策的基礎上,在智能化監控領域做一些探索和嘗試。

消息業務場景及系統架構

消息業務場景包含了社互動動、 客服溝通、交易提醒、優惠通知、品牌資訊等屬性,核心目标是打造新零售業務商業連接配接,幫助消費者進消費決策;

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

為了支撐上面的業務場景,整個消息系統鍊路比較複雜,同時IM領域和其他業務最大的不同,它是端到端的鍊路,同時又要維護長連通道,消息從用戶端上行鍊路到IM服務端分布式系統,然後再通過長連通道,下發到用戶端下行鍊路,最終在端側進行消息上屏;

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

消息全鍊路穩定性保障

随着業務的不斷發展,消息系統也在不端進行架構更新,19年之前,我們面臨一些問題,主要集中在鍊路長、排查效率低、沒有端到端排查能力,系統監控分散,實時性差等;

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

結合着這些問題,我們就打造了全鍊路日志SDK,通過AOP的方式,不侵入業務代碼,作為基礎能力,同是融合了Metrics、Tracing、Logging三個唯獨,進而實作全鍊路日志方案:

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

整體效果:打造手淘消息全鍊路智能監控排查系統,賦能消息及上層業務,實作業務名額實時監控、輿情智能分析、端到端全鍊路自動排查,有效縮短了線上問題從發現到定位的時間。提升排查效率達70%以上;日志量每天減少數百億條;日志存儲資源和采集資源減少50%以上;累計服務多個APP;問題排查次數達200W+;

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

智能監控在全鍊路體系實踐經驗

▐  傳統監控的現狀和痛點

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

▐  智能監控-特點&優勢

  • 特點:
    • 學習曆史資料,分析目前名額曲線趨勢是否異常
    • 基于以往資料,進行預測未來名額走勢
  • 優勢:
    • 算法檢測代替規則檢測
    • 告警準确率高
    • 更早發現異常情況
    • 可适應業務發展帶來的趨勢變化
MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

▐  智能監控系統架構

基于AI算法的異常檢測,具有智能化、輕量級、易接入、可擴充特點,算法檢測替代傳統的規則監控解決準确率低、時效性低、配置複雜等問題。核心子產品覆寫了資料打标、訓練、模型生成等,特征方面包含了統計特征、分類特征、拟合特征等提取方法,算法方面主要涵蓋了多種檢測算法和預測算法。

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

▐  算法檢測效果

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

▐  智能輿情全鍊路特點

  • CNN文本分類+DBScan相似算法,精細聚類輿情;
  • 輿情問題結合全鍊路排查體系,智能定位原因,提高排查效率;
  • 分鐘級定時巡檢預警,結合AI異常檢測,避免問題故障。

▐  智能輿情全鍊路體系架構

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

▐  智能輿情全鍊路實踐效果

【輿情聚類】應用文本聚類、NLP算法,1w+文本聚類時間1min内

【預警效果】預警有效率95%以上,問題排查率70%

【預警問題】有效預警線上問題50+,規避線上故障

【算法調用】日均調用600次+

【接入業務】手淘、千牛、淘寶特價版等

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

Holmes異常檢測平台

基于AI算法的異常檢測平台-Holmes,具備智能化、輕量級、易接入、可擴充特點。

使用異常檢測算法替代傳統的規則監控,解決準确率低、時效性低、配置複雜等問題。

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

隻需要簡單的4步配置,即可完成名額接入:

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

在實時檢測方面,內建了無監督學習和有監督學習,主要運用了高斯分布、STL、孤立森林、XGBoost等;

在資料預測方面,內建了LSTM、Prophet、三次指數平滑等。

未來展望

Holmes異常檢測平台是淘系技術品質團隊打造,在智能化測試領域的一次實踐,未來我們希望利用AI算法實作業務全方位智能化監控和問題定位。覆寫更多的資料類型、打造通用的算法模型。同時我們也在全鍊路監控排查、智能輿情處理等多方面進行探索,期待後續跟大家分享。

▐  研究方向:

【非結構化日志】【風季資料】【選舉政策】【智能輿情】【根因分析】

▐  研究目标:

1、監控資料:時序名額資料(實時/離線)、業務日志資料(用戶端/服務端)、使用者輿情資料

2、檢測模型:模型需要通用化,具有預測基線的能力,同時提供豐富算法庫涵蓋多種檢測算法

3、算法名額:實時性ms級别響應、正确率>95%、覆寫率>90%,召回率>95%

4、釋出計劃:目前已在阿裡集團内開放,希望後面能在業界開放使用

MTSC2020中國網際網路測試開發大會深圳站現場

MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控
MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控
MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控
MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控
MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控
MTSC2020 | 手淘AIOPS實戰-消息全鍊路智能監控

繼續閱讀