天天看點

智能化網絡營運系列(一):漫談雲計算網絡營運

文/ 子昊 瑾為

讓我們先從中國網際網路的發展開始說起~

一、從1987-2021,網絡與你我的距離?

1987年9月:車道溝十号院,中國兵器工業計算機應用技術研究所所在地,中國第一封電子郵件從這裡發出——“Across the Great Wall we can reach every corner in the world”(「越過長城,走向世界」)當時,人們并沒有想到,網際網路技術在多年後會如此深刻地影響着中國大地,融入到我們生活的方方面面。

1995年:電信營運商開始向社會提供網際網路接入服務,從此網際網路走進了大衆生活。

1999年:某媒體主辦了一場名為「72小時網絡生存」的實驗,選擇12名志願者參與網絡生存實驗。在僅有床和水的酒店封閉環境中,志願者們需要通過網際網路擷取食物并改善生活環境,最後得出「依靠網際網路不能生存」的結論。

時光荏苒,多年後的今天,當收付款二維碼充斥街頭巷尾,當年參與實驗的志願者們是否能料想到,那個72小時内曾困擾他們的問題,随着網際網路基礎設施和線上支付技術的成熟,僅在「外賣」領域,就促進了數百萬人的就業。随之而來又産生了一個值得深思的問題:現在有多少人能适應「72小時無網絡」的生活?

2020年,新冠疫情促使百年未有之大變局加速演進,數字經濟成為世界各國争相布局的新高地。以5G、雲計算、大資料、人工智能、物聯網、産業網際網路、區塊鍊等為代表的新技術讓我們加速步入數字經濟時代,而網絡作為底層連接配接這一切的基礎設施之一,其重要性不言而喻。

智能化網絡營運系列(一):漫談雲計算網絡營運

2021年7月30日,國務院總理李克強簽署第745号國務院令,公布《關鍵資訊基礎設施安全保護條例》(以下簡稱《條例》),自2021年9月1日正式實施。該條例的釋出意味着國家層面對關鍵資訊基礎設施安全穩定的重視上升到了一個前所未有的高度。而作為「關鍵資訊基礎設施」中的資訊互聯底座-基礎網絡的安全穩定,更是關鍵中的關鍵。從1987到2021,從“無網”到“網絡重度依賴”,網絡與你我之間的距離越來越近。

二、出行不能坐同一個航班的神秘團隊

在《條例》中,提到了一個專有名詞——營運者,在第三章中明确了基礎設施營運者的責任與義務,并給出了基礎設施營運者的崗位定義——負責本機關關鍵資訊基礎設施的安全保護工作。

無獨有偶,在阿裡雲基礎設施網絡團隊内部,也存在這樣一個專業營運團隊,其核心職責之一就是負責整個阿裡雲全球基礎設施網絡領域的安全生産,并對穩定性結果負責,這個團隊也是整個阿裡集團在安全生産領域影響力最高的部門之一,本文的主角團隊——阿裡雲基礎設施網絡營運團隊,負責規劃、建設、運維遍布全球數百萬級伺服器規模的基礎網絡。

談起網絡營運團隊,在公司内部早年有個不成文的「隐形軍規」:團隊出行不能坐同一個航班。原因就是:從機制上防止因各種意外故障而産生的「團滅風險」。運維領域需要7X24小時應急響應,一旦故障沒被及時響應并止損,将會給業務帶來巨大損失。正所謂「古有枕戈待旦,今有一直線上」,這也成為了團隊不成文的「隐形軍規」。

越過長城,走向世界。網絡營運團隊的核心願景就是成為技術驅動下世界頂級的團隊,通過技術+營運雙輪驅動,打造極緻高可用的可預期網絡服務。同時規劃好,建設好,管理和營運好整個阿裡雲底層這些數量極為龐大的網絡基礎設施。

三、網絡營運團隊面臨的挑戰

基礎設施的穩定不是常态,穩定的基礎設施是各行各業一代代「基礎設施營運者」持續努力的結果。

在談挑戰之前,我們首先要在挑戰前加一個定語:「規模效應」。同一個問題,規模場景不一樣,挑戰也不一樣。

# 規模效應帶來的挑戰 #

網絡基礎設施規模越大,承載業務越多,任何一個不起眼的小變化,都有可能因規模效應被成千上萬倍地放大,形成“蝴蝶效應”。

在網絡領域,規模越大,「蝴蝶效應」愈發明顯。今天,除阿裡集團自身各種國民級APP的流量運作在這張網絡基礎設施之上,還有海量雲計算客戶也同樣運作在這個基礎環境之中,每天承載和連接配接全球數十億的終端消費者與雲計算客戶。在錯綜複雜的基礎環境下,如何營運好規模龐大的網絡基礎設施是一個非常複雜的課題,如何服務好這麼大體量的客戶與業務方,也面臨着巨大的挑戰。

# 規模加持下複雜的軟硬體環境,複雜學科帶來的技術挑戰 #

網絡營運本身是一門綜合性複雜學科。那什麼是複雜的基礎環境?偏硬體的基礎設施建構與純軟體開發的網際網路項目相比有一定特殊性,偏軟體性質的項目在大部分網際網路公司内部通常是從頭到尾可以在自身的體系閉環完成。但要完成雲底座的基礎網絡完整性建構,對外提供統一标準的網絡服務,向下相容适配各種環境,整體複雜度很高,主要展現在以下方向:

- 基礎建設傳遞态複雜:

基礎環境建設傳遞,涉及到超大體量的硬體環境傳遞,往往需要一個複雜的上下遊生态體共同合作完成,如上遊的晶片供應商,裝置供應商,上千家零部件供應商,全球範圍内通信營運商(ISP),電力營運商等各種合作夥伴,中間任何一環出一點差錯都有可能導緻基礎傳遞延期甚至整個項目打了水漂。

- 運作态複雜:

網絡基礎設施通常以硬體為載體,受客觀條件限制,曆史上每年大量的建設傳遞都會帶來多種供應商的硬體并入現網,現網運作态會存在不同時期多種形态裝置軟硬體共存的情況。

統一管理難度大。網絡的作業系統與伺服器的OS(linux,windows)、手機的OS(蘋果,安卓)有很大的不同,最大特色就是與裝置商硬體深度耦合,軟硬體綁定。長期運作下來,統一網絡管理維護成本高,不僅在配置上存在各種各樣的“方言轉譯工作”,給各種自動化運維工具适配提升難度,還存在一定相容性問題;目前建立叢集可使用阿裡自研方案解決,但存量裝置還存在一定規模,管理成本也有着相當大的挑戰。

軟硬體風險大。不同形态、不同時期軟硬體裝置同時運作,這些裝置至少有上“億行”代碼在運作。在普通環境下很難觸發的各種Bug,各種形态軟硬體問題導緻的靜默丢包等各類小機率異常事件,在超大規模、複雜網絡的環境下會經常碰到,這些不以人的意志為轉移的混沌性和不确定性對現網的營運增加很大的挑戰。

- 全球一體化的複雜性:

全球一體化的複雜性展現在全球各種環境的差異性帶來的挑戰。如各個國家法律法規、合規政策有較大的差異性;即使是同一國家不同地域的基建環境往往也存在較大差異。向上提供标準的網絡服務,這些基建環境的差異性都為标準化營運增加了複雜度和運維挑戰。

在規模加持、複雜軟硬體基礎環境、複雜學科三個共同前提因素影響下,如何用技術實作「業務靈活」與「網絡穩定」共舞,「可預期網絡服務」與「綠色低碳降本增效」齊飛,是一件非常有技術挑戰的事情。

四、如何營運好這張基礎網絡?營運之安全生産方法論?

如何營運好雲計算底座-網絡的基礎設施?

借鑒業内與曆史優秀思想,在網絡安全生産領域,我們設計了四種兵器:"預防、演練、防守、應急",自頂向下,通過體系化的頂層設計并落地各種系統化工具來解決當下的挑戰。

智能化網絡營運系列(一):漫談雲計算網絡營運

運維工具支撐系統

當我們把各種風險隐患在萌芽期提前将問題找出來并規避解決掉,主動預防是最經濟有效的政策。這裡面包括了三重主動防禦體系。

第一重是營運穩定性頂層設計。這裡面最核心的是組織結構的設計。

第二重是安全生産文化建設。營運工作最終還是落地于人,提高營運人的安全生産意識看似“虛”,但再好的技術,再完美的規章,在實際操作層面,也無法取代營運者自身的素質與責任心。

第三重是品質與風控體系。整體工作思路是優流程-定标準-建能力-推運作-成體系。比如每天全網裝置的各種巡檢、各種軟硬體風險評估與更新優化、各類隐性風險的提前預測、各種變更操作的白屏化、變更雷達、變更風控能力建設等都是日常工作的重要組成部分。

此外,我們還設計了專門的故障演練體系,通過常态化、場景化的各種模拟生産故障演練,來驗證是否符合預期。需要提一下的是網絡團隊除了自身演練之外,還開發沉澱了一系列斷網能力供業務演練使用,從最早機房級的斷網工具一直疊代演進到應用級斷網工具,成為整個集團安全生産演練武器庫最重要的工具組成。最終形成,從故障發現-故障定位-故障快恢-故障複盤4個角度全時刻全方位無死角覆寫。

最後是應急體系,我們成立了一支7x24小時的快速反應團隊,用以組織、協同、處理各種與網絡相關的應急事件,戰鬥在第一線。

五、尾言

數字經濟發展活力不斷增強——目前新一輪科技革命和産業變革突飛猛進,帶動經濟發展加速邁向數字經濟新階段。

雲上“數字紅利”正在加速釋放,作為雲計算基礎設施網絡營運者,未來,我們将繼續砥砺前行,積極探索各種前沿技術,築起雲基礎設施網絡最牢固的營運屏障。