天天看點

阿裡雲網絡雙十一的定海神針 - 智能網絡平台齊天未雨綢缪 - 資源規劃平台洞若觀火 - 實時監控大盤穩如泰山 - 智能應急平台小結

剛剛過去的雙十一不僅是一次消費者們的狂歡日,也是技術平台的一次大考。訂單建立峰值54.4萬筆/秒不隻是一個銷售數字,更是一個技術的世界紀錄。而支撐這個數字的背後離不開一個關鍵系統-阿裡雲飛天作業系統。阿裡雲飛天作業系統是目前中國唯一自主研發的雲計算作業系統,這次雙11支撐了阿裡巴巴100%核心系統的運作。作為阿裡雲飛天作業系統的網絡子系統-洛神,在本次雙11也不負衆望,承擔了全球全球最大規模的流量洪峰,在零點高峰時刻為所有應用提供了極緻的網絡服務,讓使用者的每次下單和付款如絲般順滑。然而,面對億萬級的請求,是什麼幫助洛神做到堅如磐石的呢?它就是洛神的子系統,阿裡雲網絡的定海神針-智能網絡平台齊天。

齊天是一套超大規模的智能網絡平台,它是基于大資料以及機器學習,結合高度的自動化,通過分析海量的網絡資料來将整個網絡的生命周期進行智能化改造,進而讓整張網絡更穩定,更高效,更低成本。接下來我們來了解一下齊天這次是如何保障阿裡雲網絡産品的穩穩穩。

阿裡雲網絡雙十一的定海神針 - 智能網絡平台齊天未雨綢缪 - 資源規劃平台洞若觀火 - 實時監控大盤穩如泰山 - 智能應急平台小結
以下是齊天平台的簡單架構圖:
阿裡雲網絡雙十一的定海神針 - 智能網絡平台齊天未雨綢缪 - 資源規劃平台洞若觀火 - 實時監控大盤穩如泰山 - 智能應急平台小結

未雨綢缪 - 資源規劃平台

阿裡雲網絡雙十一的定海神針 - 智能網絡平台齊天未雨綢缪 - 資源規劃平台洞若觀火 - 實時監控大盤穩如泰山 - 智能應急平台小結

承載雙11流量的伺服器和網絡資源并不是拍腦袋得到的,更不是臨時拼湊起來的。其實早在雙11的幾個月前,雙11當天某個地方的叢集可能承受的峰值流量是多少,每條跨城線路預計會分攤多少,我們需要多少伺服器來頂住壓力,這些問題就已經被齊天的資源規劃平台給計算出來了。通過對雙11需求模型的分析,并且考慮到公有雲本身過去一段時間的流量增長趨勢,齊天利用阿裡雲大資料計算服務MaxCompute計算出來未來預期的資源情況,進而來保障雙11的平穩度過。

洞若觀火 - 實時監控大盤

阿裡雲網絡雙十一的定海神針 - 智能網絡平台齊天未雨綢缪 - 資源規劃平台洞若觀火 - 實時監控大盤穩如泰山 - 智能應急平台小結

面對全網上百萬裝置,千萬級的虛拟資源,億萬級的使用者,怎麼樣做到洞若觀火,是一件非常困難的事情。齊天基于阿裡雲實時計算(Alibaba Cloud Realtime Compute),阿裡雲時間序列資料庫TSDB(Time Series Database)結合資料可視化,建構了一張全網實時監控大盤。它具備高性能,低延時,多元度的特性,支撐超過每秒2000w,多達100種核心網絡資料的計算,并且最低延時保持在10秒内,整個過程不抖不跳,讓雙11期間每個人都能對線上心中有數。

穩如泰山 - 智能應急平台

阿裡雲網絡雙十一的定海神針 - 智能網絡平台齊天未雨綢缪 - 資源規劃平台洞若觀火 - 實時監控大盤穩如泰山 - 智能應急平台小結

網絡當中故障随時可能會發生,一台裝置的故障,一根線路的異常,甚至一個端口的問題,都有可能導緻網絡故障的發生,而一旦網絡發生故障,引起的蝴蝶效應則是大面積的上層業務和應用出現問題。很明顯,雙11期間我們是不允許有任何故障發生的,那麼怎麼辦呢?齊天基于一套分布式網絡品質探測系統,結合多層網絡資料,對網絡當中的所有異常進行了大量的模組化。針對每一種網絡故障模型,齊天對它進行一系列根因定位,快速分析出來具體出現故障的裝置,線路,端口,虛拟/實體網元等,随後開始自動化的故障修複。整個應急過程完美的結合了大資料,機器學習,以及網絡自動化的能力,讓雙11期間線上的任何問題都能平滑無感得解決掉,整個網絡運作穩如泰山。

小結

以上介紹了齊天在雙11期間的一些關鍵角色,當然,除了這些以外,齊天在網絡的變更及維護,日常的問題排查,以及網絡業務的營運等方面都通過智能化的方式顯著改變了傳統網絡的做法。它是阿裡雲網絡産品的智能營運平台,支撐了阿裡雲網絡産品公有雲的全生命周期的運作,用資料+自動化的方式推動整個阿裡雲網絡産品更穩定,更高效,更低成本。