天天看點

2017雙11-開啟智能全鍊路壓測之路

一  智能壓測概述

      智能化壓測,通過産品化、服務化、雲化,一鍵完成阿裡集團内外全鍊路壓測準備和實施,保障集團内外全鍊路穩定;同時在常态化壓測中,化身特種機器人,挑戰系統承壓能力,智能調整容量配比,快速定位問題。

      如下圖1所示,智能壓測主要包含智能壓測模型、自動化施壓、預熱系統化、壓測雲化、常态化智能壓測五個子產品。

2017雙11-開啟智能全鍊路壓測之路

                                                                     圖1 智能壓測概述圖

智能壓測模型:高效提供一套準确的大促零點高峰壓測模型

自動化施壓:壓測實施過程一鍵搞定,快速執行壓測,準确發出目标量級的流量

預熱系統化:確定各應用資料&系統預熱全面且準确,保障全鍊路系統在大促峰值處于活躍态

壓測雲化:壓測産品雲化,為阿裡集團内外各參與大促應用和系統提供壓測服務

常态化智能壓測:問題解決在平時,提高全鍊路壓測效率

二  智能壓測模型

      全鍊路壓測模型是全鍊路業務的抽象集合,直接模拟大促峰值模型,驅動整體壓測。

      智能壓測模型,通過智能子產品管理整條壓測模型産業鍊,實作模型采集、預測、設計、建構整個過程的一鍵化智能操作,提升壓測模型效率,同時在過程中将業務模型智能劃分和計算,轉換成可執行的壓測模型,保障壓測模型準确率。整體流程如下圖2所示。

 模型預測:采集往年大促業務資料,制定預測樣本,通過預測算法,預測目前大促峰值模型。

壓測模型智能劃分和計算:将模型按照不同業務劃分為可執行壓測子產品,統籌計算整體壓測名額和各子子產品壓測業務名額(拆單比、主訂單、子訂單、購物車:立即購買、商品類型占比等),確定子子產品和整體模型的一緻性、準确性和完備性。

壓測模型自動化調整:自動化調整壓測模型,調整整體資料、業務名額等,達到一次壓測驗證多套模型的效果。

模型建構:一體化模型建構,根據模型參數,自動建構壓測模型,生成壓測流量,建構過程中可自動進行異常校驗和模型資料校驗,確定最終壓測流量準确率。

壓測方案:一鍵生成多單元多業務壓測方案,壓測方案可在多環境下執行,并且可根據業務要求,多模型組合執行。

智能管理子產品:控制整體模型生産過程,一鍵操作,校驗和修複異常流,控制模型建構對上下遊系統影響,并使整體流程可視。

       智能壓測模型支撐大促效果:産出的全鍊路壓測模型準确率達到90%以上,可在一天内完成大促壓測方案設計計算和億級别模型資料輸出。

2017雙11-開啟智能全鍊路壓測之路

                                                              圖2 智能模型圖

三    自動化施壓

 壓測執行過程自動化,提高壓測執行過程的準确率和效率,減少人為操作導緻的異常和誤差。

       如下圖3所示,今年在壓測執行過程中,預熱、預案、限流設定和動态調整、壓測資源自動配置設定、施壓整個過程均一鍵化操作,由系統校驗執行結果及其準确性。

       通過智能施壓,今年的施壓量級達到1600萬/s,預案執行準确率100%,預熱充分,限流準确。

2017雙11-開啟智能全鍊路壓測之路

                                                           圖3 自動化施壓

四     預熱系統化

        大促期間預熱必不可少,本地緩存和外部緩存均需要預熱到位,避免大促峰值期間緩存被擊穿,直接打到DB端産生雪崩效應,導緻系統波動。

以往都是各個業務系統自行預熱,中間可能會存在疏漏和預熱不完善,今年推出智能預熱系統,可覆寫核心應用及應用間關聯的預熱場景,一鍵實作全鍊路系統預熱,事半功倍的同時也提升了預熱的準确性。

通過智能預熱系統,已實作億級别資料的緩存預熱、應用預熱和DB預熱,確定系統在0點峰值時處于活躍狀态。

2017雙11-開啟智能全鍊路壓測之路

                                                     圖4 預熱系統化

五     壓測雲化

        壓測雲化,通過内部服務和上雲實作外部服務,将集團内外的全鍊路應用全部納入到壓測範圍中,即保障平台内部應用系統穩定,也保障關聯的外部賣家應用性能穩定,在大促時達到整體穩定和雙赢。

内部服務:産品化輸出服務,為内部各業務提供可定制模型、容量彈性伸縮等個性化服務。

外部服務:将壓測系統産品化上雲,為外部商家提供壓測服務,可實作資料、場景、模型、壓測一鍵式操作,模型更接近大促峰值模型,壓測環境和大促保持一緻,壓測效果更真實,保障賣家自身系統容量準确可靠。

以往的賣家自身系統壓測過程中,是mock集團内部業務,直接模拟最後一步達到其自身系統的請求,同時使用的資料也比較單一,這中間會出現很多業務點覆寫不到,模型不完善,出現很多意想不到的問題;通過壓測上雲服務,可以為賣家提供真實的模型和豐富的資料,壓測直接從最源頭發起,把所有業務路徑節點均覆寫其中,驗證真實業務路徑能力,確定各節點性能穩定,為賣家在大促峰值期間提供更可靠的業務能力輸出,今年大促峰值期間各外部系統穩定,和集團内部應用互動順暢,往年出現的問題徹底消除。

2017雙11-開啟智能全鍊路壓測之路

                                                      圖5 壓測服務

六    常态化智能壓測

       常态化智能壓測,在非大促态下全鍊路壓測系統化身為智能壓測機器人,對全鍊路系統進行固定頻率的壓測,沉澱全鍊路性能基線,及時發現系統瓶頸和定位原因,将業務應用瓶頸發現并消滅在平時,下圖6展示了常态化智能壓測流程。

2017雙11-開啟智能全鍊路壓測之路

圖6 常态化智能壓測流程圖

        智能環境:常态化壓測在壓測環境(也在生産環境中,有獨立的一套和線上系統相同的配置)中進行,對線上流量無任何影響,操作時可一鍵将目标應用叢集按比例隔離到壓測環境中。

        智能模型:壓測模型采用大促模型,按照大促要求設計和執行壓測政策。

        智能施壓:按照壓測模型和政策和圖3中的施壓流程自動施壓。

        彈性容量:壓測過程中,可根據目前系統表現進行彈性伸縮,確定在達到目标量級時,各系統按照預期性能名額調整到準确的容量。

        性能基線&智能報告:在達到目标量級後,采集各系統性能名額和容量資料,沉澱性能基線,和以往基線進行對比,快速發現問題,并通過業務埋點監控定位問題可能出現原因,最終将壓測資料、對比結果和問題原因自動錄入報告并發送給業務方。

        通過以上步驟,可實作無人值守的常态化壓測,業務方在收到報告後,自行解決報告中的問題,下次壓測再做驗證,将全鍊路系統中的問題消滅在平時。

        今年的常态化壓測中,整體流程已跑通,中間仍有一些問題需後續改進和修複(如隔離環境的問題等),讓真正的無人化智能壓測盡快到來。

七    結語

       這個雙11,我們已經能做到讓機器人去智能壓測,我們在項目室裡喝着茶,跟機器人一起扛住了雙11的峰值。在今年智能壓測實施下,模型準确率達到93%以上,整體效率較去年提升2倍以上,為雙11全鍊路壓測節省1000人次工程師,同時保障了全鍊路系統穩定性,使今年雙11峰值(32.5萬筆交易,25.6萬筆支付)如絲般順滑。這是幾年前都不敢想象的事情,但我們現在能做到了。

       今年是智能壓測實施第一年,後面智能壓測還會繼續創新和使用更多智能化方法,讓壓測更高效更準确,讓全鍊路壓測“無人化”更近一步。

2017雙11-開啟智能全鍊路壓測之路

識别圖檔二維碼▲,關注「天貓技術」

技術驅動商業變革|做最懂商業的技術人

歡迎大家積極點贊和留言想要聽到的技術分享,一起交流分享電商技術,做最懂商業的技術人!我們将通過微信公衆賬号分享更多的獨家技術細節!敬請關注。

2017雙11-開啟智能全鍊路壓測之路

微信掃一掃

關注該公衆号