天天看點

雲栖大會上雲 提供全局高可用的護航保障

1. 項目簡介

雲栖大會,從2009年的站長大會,到2011年全國的開發者聚會,再到2019年雲栖大會都是阿裡雲的一次轉身成為科學、技術、經濟、商業等跨思想領域交彙的國際性盛會,同時也是對平台技術部門進行一年一次護航服務的大考,特别是2020雲栖大會更新為“雲端直播、百城共振、千萬人互動”的科技盛會,這不止是全速重構的雲栖大會,也是對護航服務的一次重構;保障的目标已從單一的直播護航保障變成了全局高可用的護航保障。

2. 項目成果

通過事前重規劃(通過業務目标梳理,系統性地通過全鍊路壓測,深度巡檢、性能優化、風險治理、預案編制、容量規劃、故障演練等前置工作),事中重保障(7*24現場護航、監控、預警等確定第一時間解決風險),最終在大家協同有序、密切配合下,高品質地完成了護航重保工作。 護航期間:重大故障0,重大客情0,大會活動達到預期目标。

3. 護航故事

雲栖大會即将拉開帷幕,大會對整體名額提出了更高要求,需要提升五條關鍵業務路徑的所有性能名額。經過新一輪的全鍊路壓測評測後,發現距離新目标仍有不小差距,這時離大會開幕,隻剩不到48小時。由于隻能在特定時間進行壓測,真正的剩餘時間不足30小時,護航團隊必須要對不同鍊路進行兜底預案設定和定向優化來滿足最終的業務名額,為保大會萬無一失,經過大家2個通宵的通力合作終于攻克了難關。 前12個小時對所有java接口通過邊壓邊查的方式,共進行了30+輪壓測,完成所有連接配接數的最優調整,同時對應用層熱點大key進行業務邏輯優化(資料庫寫入控制、前端并發請求随機打散)等措施最終大幅提升性能到了目标值以上。對無法進一步提升php性能的接口進行資源緊急擴容和性能調優,由于資源在OXS區域,涉及資源調配和批量部署的限制,隻能在協調資源擴容的同時,進行邊壓邊測邊優化的政策,曆經了18個小時的奮鬥,終于在大會開始前7個小時,将資源全部擴容完成。在大會開始前5個小時完成所有壓測和優化,達到穩态的業務名額。前3個小時完成最終流量保護驗證,在流量入口層做了穩态門檻值的限流機制以及非關鍵鍊路的降級預案來確定緊急狀态的核心鍊路高可用,保障使用者核心體驗不受影響。

我們是阿裡雲智能全球技術服務-SRE團隊,我們緻力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿裡雲SRE技術學院釘釘圈子,和更多雲上人交流關于雲平台的那些事。

雲栖大會上雲 提供全局高可用的護航保障