天天看點

GTS-SRE周刊 || 5月集強勢釋出

GTS-SRE周刊 || 5月集強勢釋出

前言

阿裡雲智能全球技術服務部(GTS)-SRE團隊于2019年正式成立,由原專有雲、公共雲的TAM團隊及集團高可用基礎技術團隊融合而成,是阿裡為確定客戶平台穩定、業務連續而打造的核心支撐團隊,也是阿裡集團高可用基礎技術核心締造團隊,為集團設計和建設了異地多活、大促容量規劃、限流降級、開關預案、流量排程、故障演練、資損防控等高可用架構基礎設施,深度參與支援了集團曆年雙11大促的技術保障工作,我們期望通過SRE周刊:

- 将阿裡雲智能最先進的産品、運維技術傳遞給不同行業的客戶和夥伴,幫助大家更全面深入地了解阿裡雲産品。
- 促進技術上互相交流,取長補短,打造阿裡雲産品運維人社群論壇,共同促進阿裡雲産品的不斷完善。
點選加入社群技術論壇,随時交流技術難題

阿裡雲SRE技術期刊重點内容概覽- 2020年5月第1周

本周封神榜:智能運維服務助手

封神榜是SRE團隊提供的從業務、産品、安全、故障四個次元對項目進行全方位監控的運維服務工具,可實作為不同關注點的客戶提供問題、故障、性能、容量、優化建議等運維服務内容推送。

功能定位:穩定性是基礎、增強運維服務、補全監控短闆。

服務目标:業務優化、雲平台監控、客戶服務、故障響應。

應用實踐:MQ執行個體監控、安全事件告警。

服務案例:SRE團隊全力保障多地健康碼順利上線(上)

2020年初,新冠肺炎疫情爆發,阿裡巴巴配合多地政府開發健康碼,實作數字化防疫。SRE團隊協助完成各類資源準備、業務壓測、業務優化以及持續性資料監控等工作,保證了健康碼順利上線和運作。

阿裡雲SRE技術期刊重點内容概覽- 2020年5月第2周

本周技術:RocketMQ消息存儲技術

RocketMQ是阿裡開源的分布式消息中間件,跟其它中間件相比, Rocketmo的特點是純JAVA實現、叢集和HA實作相對簡單、在發生當機和其它故障時消息丢失率更低,具有良好的高可用架構及穩定性。其發展的代曆史如下圖所示,從2007年至今已發展超過10年。

消息存儲架構:相關檔案有三種,CommitLog、ConsumeQueue、IndexFile

GTS-SRE周刊 || 5月集強勢釋出

消息刷盤:分為同步刷盤和異步刷盤,同步刷盤使用于金融業務應用,異步刷盤讀寫延遲降低,可提高MQ的性能和吞吐量

服務案例:SRE團隊全力保障多地健康碼順利上線(下)

阿裡SRE團隊與時間賽跑,火速立項、部署江蘇“蘇城碼”,解決江蘇大量外來人口複工的管理難題,提升人員流動速度。搭建高可用高可靠系統平台,解決上海随申碼的發碼查碼導緻的系統負載問題。

阿裡雲SRE技術期刊重點内容概覽- 2020年5月第3周

本周産品:銅雀:阿裡雲智能巡檢管家

作為雲平台告警資訊與監控的統一門戶,銅雀專注于智能化巡檢及問題診斷,是TAM和駐場服務團隊日常工作中的首要工具。銅雀主要為客戶、業務應用開發商、TAM、駐場提供以下服務:

客戶:了解雲平台的健康狀況和資源使用情況,通過對曆史發展趨勢的分析,發現可能的資源缺口和擴容需求。

業務應用開發商:通過銅雀分析可能導緻線上應用問題的原因或提供排查方向TAM:通過銅雀發現雲平台或業務應用所存在的風臉和問題,并跟進處理。

駐場:使用銅雀簡化日常的運維類工作,井提升工作效率。比如:一鍵巡檢、駐場日報自動生成、白屏化分析工具等。

GTS-SRE周刊 || 5月集強勢釋出

本周實踐:阿裡高可用架建構設實踐經驗

随着業務線上化網際網路化的高速發展,企業對核心業務系統的穩定性、可靠性、有效性、業務連續性等有了更高的要求。采用高可用系統架構支援重要系統、為關鍵業務提供7x24的不間斷服務,已經成為衆多企業保障業務穩定、持續運轉的主要選擇。阿裡巴巴在多年雙11高井發、高可用和高客戶體驗要求背景下積累了相應的技術體系,本文将依據高井發使用者、突發高流量場景下的真實案例。

原有業務痛點:

非常複雜的服務端:通常從用戶端到達服務端會涉及到的關鍵節點有CDN、動态加速高防、應用防火牆、4/7層負載均衡、前後端服務集、緩存、資料庫存儲、中間件、基礎設施層等等,整個鍊路都面臨着不确定性,這其中任何一個節點出現問題都會導緻服務不可用。

缺乏提前規劃的服務能力:如果企業沒有對自己的服務能力進行提前規劃,沒有提前做好關鍵節點的規劃,對線上的應急措施如彈性擴容、線上防護、熔斷降級等都不具備,那麼在面對突發問題時,就很難保證核心接口能夠穩定對外服務。

阿裡雲SRE技術期刊重點内容概覽- 2020年5月第4周

本周技術:淺談異地多活及阿裡雲容災經驗分享

異地多活,英文Mut- Site High Availability,顧名思義就是分布在異地多個站點同時對外提供服務。與傳統災備最主要的差別是“多活”裡所有站點都是同時在對外提供服務的,具體有以下幾點不同:

應急狀态有風險:傳統的災備中心平時不提供服務,關鍵時刻無法确定切換到災備中心是否可以切換成功。

成本高:傳統的災備中心平時不提供服務,整個災備資源會處于浪費狀态,成本比較高。

地域資源瓶頸:傳統的災備中心平時不提供服務,是以平時提供服務的資料中心還停留在單地域,當業務體量大到一定程度時,這種模式無法解決單地域資源瓶頸的問題。

因為通過傳統的災備手段無法解決上述問題,阿裡巴巴經過多年研究,成功在2013年的雙十一實作了“絲般柔順”的使用者體驗後,“異地多活”這項基礎技術首次在業界亮相。

GTS-SRE周刊 || 5月集強勢釋出

結語

阿裡雲的5RE團隊自從誕生之日起,就被予了"服務"于客戶的基因,幫助廣大阿裡雲企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠。從服務的視角,團隊重新定義了SRE的内涵( Service Reliability Engineering):緻力成為一個以技術為基礎、面向服務、保業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。

全新的定義承接了全新的使命,我們也深刻踐行着阿裡巴巴集團toB的企業服務初心,同時陪伴着夥伴和客戶一起成長。

GTS-SRE周刊 || 5月集強勢釋出

掃碼進釘群 下載下傳周刊集,并擷取一手阿裡雲SRE資料

關注 “阿裡雲文檔” 雲栖号,第一時間了解阿裡雲最全最新資料内容吧!

繼續閱讀