天天看點

黑科技揭秘:百種異常随機注入,專有雲為何穩如泰山

關鍵應用服務中斷引發一系列連鎖反應,起因僅是一塊磁盤被寫滿?為什麼這麼巧,兩個小機率的問題偏偏一起發生,造成保護失效?為什麼我們做了測試演練,然而真正發生問題依然踩坑?”2018杭州雲栖大會主論壇示範現場,阿裡雲專有雲事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。

百種異常現場随機注入破壞系統

黑科技揭秘:百種異常随機注入,專有雲為何穩如泰山

繼去年跑了分、斷了電,在9月19日下午的杭州雲栖大會技術主論壇現場,專有雲現場示範穩定性更新版,在現場搭建的專有雲“企業号”資料中心系統上随機注入異常搞破壞。該資料中心由8大品牌伺服器搭建,模拟了客戶真實的複雜生産環境,同時現場直播應用便搭載在該資料中心的系統上,在注入異常後将直覺的通過觀察直播是否卡頓來判斷專有雲系統是否真的穩定。

黑科技揭秘:百種異常随機注入,專有雲為何穩如泰山

現場馬勁讓助手向觀衆席中扔出兩隻猴子玩偶,搶到的觀衆可以在現場呈現的1-100個異常中随機選取一個異常注入,兩位觀衆分别選擇了19号和66号,分别代表的是“ECS雲産品網絡傳輸包亂序比例陡增”,模拟ECS網絡不穩定,網絡急速惡化,傳輸包亂序陡增的場景,以及“SLB雲産品網絡傳輸時延陡增”,模拟SLB所在網絡不穩定,傳輸出現嚴重惡化,時延陡增的場景。在分别注入這兩個異常場景後,直播視訊仍然保持順暢毫無卡頓。這是因為專有雲系統日常就是在通過注入這類異常收集回報進行調整,進而不斷打磨系統建構出“專有雲免疫系統”。

似乎是現場觀衆随機挑選的異常“破壞力”不足,馬勁一狠心,示範了極端環境下的超級異常——核心ECS叢集局部網絡異常且另一台ECS計算資源飽和。“這模拟了業務高峰期伺服器已經超高負載時的網絡故障,這類情況極易引發系統雪崩,一旦雪崩恢複時間很長。”馬勁解釋道。示範現場阿裡雲負載均衡的快速隔離及彈性伸縮服務智能資源配置設定及時發揮了作用,現場應用卻快速恢複正常,觀衆席響起熱烈的掌聲。

黑科技揭秘:百種異常随機注入,專有雲為何穩如泰山

打磨産品穩定性,阿裡雲沒有好辦法隻有“笨辦法”

阿裡雲專有雲承載着衆多企業的關鍵業務,深知肩責任之重,也深知穩定性對客戶業務意味着什麼,是以打磨穩定性是專有雲不渝的追求。然而,過去大部分系統都搭建在DIY系統上,不具備全系統演練的條件,而今天在阿裡雲這個“雲計算機”上,可以在準生産環境下進行全方位立體化的演練。

混沌工程是專有雲針對理論科學搭建系統同時利用實踐科學不斷打磨系統的最佳組合。阿裡雲異常庫中擁有高達12600種的異常場景,一年365天都在全方位立體化的不斷注入打磨系統,以提前幫助客戶排除系統中80%的故障。當别人還困擾于硬體層級的異常發生該如何處理時,阿裡雲專有雲已經在用更深層級的組合異常打磨系統。這一切的投入和執着錘煉穩定性都隻為持續給客戶提供更穩定更可靠的産品。

現實往往不按照故事的劇本走,阿裡雲沒有“好辦法”隻有笨辦法,那就是引入‘混沌工程’理念,在仿真的生産環境中做千倍高頻的異常注入,對不符合預期的系統回報不斷優化,進而持續打磨穩定性,助力客戶業務穩定性提升。

了解更多産品降價資訊請戳連結

https://yunqi.aliyun.com/2018/hangzhou/product

了解更多阿裡雲産品請戳連結

https://www.aliyun.com/product/list?utm_code=p_2018090501

專屬小遊戲,《我和老闆,那些不可描述的需求》等你來~

https://yq.aliyun.com/articles/641567

繼續閱讀