天天看點

華為雲春節前夕遭連續偷襲!密謀3個月,專挑淩晨斷網

楊淨 蕭箫 發自 凹非寺

量子位 | 公衆号 QbitAI

“把上海、廣州兩個站點網絡全斷掉!”

“趁他們晚飯不注意的時候,注入攻擊!”

“還要在淩晨3點大家睡覺的時候,再攻擊一波!”

……

這是華為雲最近破獲的一次“陰謀”,時間就在春節前夕。

之是以這波攻擊不容小觑,是因為如果陰謀一旦得逞,華為雲内部系統的運作将面臨嚴重的後果。

華為雲春節前夕遭連續偷襲!密謀3個月,專挑淩晨斷網

1個月發動組合攻擊20餘次

攻擊者的計劃,在3個月前就已經開始。

經過密謀協商,他們決定在春節前後“幹票大的”,近1個月來發動組合攻擊20餘次。

動機很簡單:春節期間,各種短視訊、社交媒體,包括自拍軟體等應用流量激增,理論上是多數雲服務廠商流量最高、最易出故障的時候。

一旦攻擊成功,就會有大量網際網路服務出現不穩定、甚至影響更大的情況。

尤其像除夕搶紅包這類活動,8點到淩晨1點正是流量峰值期,故障多一秒鐘使用者都無法忍受。

所幸,這次攻擊結果并未達到目的。

華為雲反應非常迅速,将排查問題的時間限制在3分鐘内、并利用5分鐘進行修複,最終在8分鐘内就處理好了系統故障,全程沒有影響到雲上業務的運作。

不免讓人好奇,為何華為雲會任由這些攻擊反複發動?

畢竟對于華為雲來說,這群攻擊者已經不是“初次來犯”。

手段從人為攻擊到利用系統“自動”攻擊,類型從斷網、故障注入到各種最新的攻擊“武器”,都被他們嘗試過。

但即使面對未知攻擊,華為雲卻依舊能迅速處理。

不止這類春節前夕的攻擊,面對各種類型的攻擊,他們都能及時察覺系統異常、迅速定位并解決問題,将整個過程壓縮到10分鐘内。

而這又是為何?

随時待命的“特戰隊”

原來,這個秘密謀劃三個月、攻擊華為雲上千次的攻擊者團隊,竟是華為雲内部的一支“秘密團隊”,名曰“藍軍”。

他們不停地設計最新的攻擊彈藥,随時對華為雲系統進行突襲。

至于作為防禦方的紅軍團隊,則是随時處于待命狀态,一旦察覺藍軍攻擊便第一時間進行修複。

華為雲春節前夕遭連續偷襲!密謀3個月,專挑淩晨斷網

兩個團隊之間沒有任何溝通,什麼時候觸發攻擊也不可知。

除了人為攻擊,藍軍甚至還用上了混沌工程,系統會随機、自動地去攻擊紅軍維護的系統,近一年攻擊總數多達2000+次。

而在這類攻擊背後,所有的動作都隻有一個目的——

提升華為雲系統的穩定性和應急能力。

即使在春節,系統的維護和防禦也不會停止:華為雲專門成立了一支“特戰隊”。

“特戰隊”的規模上百人,都是已經應對過無數次攻擊、“身經百戰”的全棧工程師。

從現在一直到元宵節,“特戰隊”隊員們按三班倒的形式,7×24小時全職投入春節運維保障。

這樣一來,即使攻擊者想“趁虛而入”,從流程上來說也不會太過輕松。

但這還僅僅是解答了第一個疑問。

為何華為雲面臨攻擊,能迅速穩定地處理整個流程?

故障率保持在0.01%以内

可以說,這次藍軍的攻擊,正好撞在了早有準備的紅軍“槍口”上。

早在三個月前也就是11月5日,紅軍就已經開始排查系統風險,并通過流量預估來進一步降低故障發生率。

事實上,這已經不是傳統意義上的運維團隊了。

無論是日常排除風險故障、維持系統穩定的紅軍,還是春節值守的“特戰隊”,都來自華為雲内部一隻“訓練有素”的團隊——SRE。

SRE這個概念,最早定義是“用軟體工程的方法從事運維活動”。在華為雲這裡還要更精細一點,誕生出了“确定性”的方法論,來達成“高可用”的目标。

一言以蔽之,就是在設計産品時就考慮高可用的架構、并将風險控制做到動态清零、再加上智能化運維平台,來控制不确定性的風險,達成确定性的風控品質。

SRE團隊自主研發了一個智能運維平台,用資料驅動的方法,将運維過程變得标準化、自動化。具體而言,這個平台不僅能實時記錄運維資料,還能度量全流程各個環節的品質,真正做到縮短問題發現、故障定位和修複的時間。

如今,平台的監控名額數量已經達到160億/小時,運維系統使用者數達到10000+,變更頻率每分鐘2次,兼顧智能運維和日志記錄等功能。

華為雲春節前夕遭連續偷襲!密謀3個月,專挑淩晨斷網

在智能運維平台以外,SRE團隊還會借助流量預估等工作,來進一步提升系統的可用性,降低風險發生的機率。

具體來說,是通過特定的算法模型,結合名額對資源使用情況進行預估。

在華為雲背後,有一個博士軍團,其中有專門的算法創新實驗室,研究人員會協助流量預估人員進行算法調優,像近期實驗室一篇關于用強化學習求解虛拟機排程問題的論文,已經被頂級期刊Pattern Recognition接收。

華為雲春節前夕遭連續偷襲!密謀3個月,專挑淩晨斷網

同時,還會借助雲作業系統和全域排程等技術,高效“壓榨”并配置設定有限的流量資源,包括采用“瑤光”智慧雲腦,負責整個雲的資源配置設定、部署、調動和供給,以及結合全域排程等技術,進一步精細化資源的利用效率等。

目前,華為雲系統的故障發生率也被壓制在0.01%以下,即一年故障發生的時間保持在53分鐘以内。

數字世界的春節保衛戰

事實上,華為雲今年投入春節保衛戰的人力,前後已經接近1000人。

其中整個SRE團隊幾百人,更是一直處于“全員線上”的備戰狀态。

某種程度上,他們與傳統行業裡的員工一樣,是保障我們生活便利的春節值守人。

隻不過次元從線下的實體世界轉變到了線上的數字世界。

在運維行業幹了20多年的張智認為,春節的味道其實并沒有變,隻是換了個地方過年。

華為雲春節前夕遭連續偷襲!密謀3個月,專挑淩晨斷網

△華為雲SRE專家張智

以前春節主要是在實體世界,但現在數字世界的春節可能比實體世界更熱鬧。現在我在數字世界上,也可以跟朋友一起過春節、搶紅包、刷視訊。

見證過不少同行災難發生的他,認為這份值守不可或缺:

你不知道風險什麼時候會發生。但SRE可以真正降低遇到風險的可能性。

從其他崗位轉到SRE的石勝兵,雖然調侃了一下這個身份在春節中的特殊性:

華為雲春節前夕遭連續偷襲!密謀3個月,專挑淩晨斷網

△華為雲SRE專家石勝兵

SRE算是華為雲背後的角色。我們其實很少在像春節這樣的節日中“露面”,因為真出現的時候,往往都“不是一些好事”。

但這份工作卻讓他感受到“新的春天”:

我在華為工作了二十年,來這個團隊一年半。原以為上個崗位就是職業生涯的最後一個,現在感覺新的春天到來。

一方面展現在SRE本身,它是華為雲最年輕的團隊。

另一方面,随着行業快速成長,年輕的SRE正成為雲服務品質保障的中堅力量。

其實這種對數字生活的保障,也并非孤例。

平時出行的電子公交卡、一鍵打車,吃飯時的數字支付、生病時的線上預約,再到網購和線上遊戲聚會,回想起來我們已經離不開數字化的生活。

而若再往前看一些,從最早提出的“智慧地球”,到後來AI發展帶起的“全真網際網路”,再到現在的“元宇宙”,行業熱詞一直與數字世界息息相關。

華為雲春節前夕遭連續偷襲!密謀3個月,專挑淩晨斷網

具體到技術上,包括這幾年“數字人”的爆發、随着AI發展再度被帶起來的XR裝置也在說明,我們的生活确實正不知不覺地與數字世界發生融合。

在數字世界中,雲服務反而從一種新興的技術,成為了不可或缺的基礎設施。

換而言之,我們的一切網際網路服務和數字産品,最終都由雲帶來,并運作在雲上,甚至我們在成為數字虛拟世界的一份子時,本身也會被加載到雲中。

傳統實體世界的水電、橋路和房子,被還原到數字世界中去後,也不過是存儲在雲上的一些資料。

在這種趨勢之下,雲服務的穩定性就變得和數字世界中的基建穩定性一樣重要,反映到春節中則更是如此。

如今的特殊時期,我們反而比以往更依賴于數字春節的保障。

而這一次,華為雲的攻防演練和紅藍對抗披露,不僅是一次先進經驗和機制的分享,更提醒我們關注日益依賴的「數字世界的基礎設施」。

繼續閱讀