2020年的雙11,天貓又創造了新的紀錄:訂單峰值達到創紀錄的58.3萬筆/秒,銷售額達到曆史新高4982億,阿裡雲神龍再次成功扛住了全球流量洪峰。2020年是雙11全面雲原生化的第一年,也是神龍架構順利支撐雙11的第三年。

今年雙11,基于第三代神龍架構,搜尋、廣告以及核心交易資料庫等存儲和網絡高負載業務完成全面雲化,神龍輸出千萬核CPU計算能力,完成了阿裡巴巴經濟體所有業務負載100%在神龍公有雲部署。
兩年前,阿裡雲神龍首次支撐雙11大促;去年,雙11核心系統全面on神龍;今年,雙11所有業務部署在神龍公有雲。神龍架構已連續三年順利支撐雙11,每年不變的是一如既往的表現平穩,為使用者提供了如絲般順滑的購物體驗,而變化的是神龍架構的不斷更新和疊代。
本文将為大家揭秘雙11最具挑戰的搜尋廣告、金融級業務核心交易資料庫如何遷移至第三代神龍架構,再詳解神龍架構如何支撐阿裡巴巴最大規模雲原生實踐落地,最後是神龍架構如何通過當機演練大考、備戰雙11的背後故事。
最具挑戰、沒有之一,搜尋廣告業務更新至第三代神龍架構
對于電商平台來說,搜尋功能是最核心的功能,百微秒的結果展示延遲都将直接影響到平台使用者最終交易的轉化,使用者體驗至關重要。是以,搜尋廣告業務對計算和網絡的性能要求是極盡苛刻的,而這也是目前神龍架構面臨的最具挑戰的業務,沒有之一。
今年雙11,搜尋廣告業務支撐了數以千計的會場場景,日均商品曝光千億次;日均模型釋出上萬次,單模型容量1TB+,模型參數達千億級,實時每分鐘更新1億模型參數;日均樣本資料處理達100PB,單次請求超過200億次浮點運算。這些資料的背後,搜尋業務團隊對底層基礎設施提出了兩大挑戰。
1、極緻的性能需求,要求雙向百G全線速處理網絡流量
根據曆史資料預測,雙11淩晨零點線上搜尋廣告業務的網絡帶寬将達到雙向100G極限全線速,是以要求基礎設施資源能配合提供雙向100G全線速(line speed)流量帶寬處理的能力,以確定順利支撐零點流量峰值。實際在雙11當天零點,線上大部分網絡流量均來自搜尋廣告業務的彈性裸金屬執行個體,網絡帶寬均如預期達到了極限全線速。
第三代神龍架構,通過網絡硬體加速實作了網絡帶寬全線速處理,可以提供100Gbps網絡帶寬、2400萬PPS網絡轉發和100萬雲盤IOPS,極好地滿足了搜尋廣告業務雙向100G全線速流量帶寬的處理需求,不僅幫助搜尋廣告業務順利扛過了雙11零點流量洪峰,同時還提升了資源的使用率。
2、進一步提升離線搜尋和線上搜尋混部服務品質
搜尋廣告業務分為線上搜尋和離線搜尋,這兩個系統對資源的需求是天然互斥的:離線搜尋業務要求極高吞吐能力,需要確定數以億計的資料可以在15分鐘内完成處理完成;線上搜尋則是對時延有極高的要求,需要確定1000萬資料亞秒級處理的實時性和極高的可用性。
第三代神龍架構引入了進階QoS特性,可多級排程網絡和存儲QoS,實作多元度精準排程,極好地支撐搜尋廣告的離線業務和線上業務混部,最終幫助搜尋廣告業務實作了同時達到線上業務低延遲時間和離線業務高吞吐的混部業務目标。
事實上,在阿裡巴巴集團實際的業務場景中發現,在同樣的資源配置的情況下,神龍裸金屬比普通實體機的QPS可以提升30%,延時可以降低96.3%,資源使用率也有大幅提升。
扛住58.3萬筆/秒新峰值,核心交易資料庫on神龍
11月11日零點剛過26秒,天貓雙11訂單達到58.3萬筆/秒的峰值,是2009年首次雙11的1457倍,每一筆剁手交易操作都會經曆一系列核心交易資料庫的處理,如何保證全球最大規模交易高峰的海量訂單的有序、準确和順滑成為了核心交易資料庫的挑戰。
衆所周知,資料庫本身就是一個重存儲的業務,核心交易資料庫更是對資源的IOPS、時延等性能名額極其敏感。雙11核心交易資料庫之是以選擇神龍架構,是因其能夠滿足“高并發、低延遲時間、高穩定”三大需求。
高并發:在雙11這樣全球罕見的超大規模并發量場景下,計算能力是一個關鍵因素。更新疊代後的第三代神龍架構,存儲和網絡性能均達到500%提升,VPC雲網絡全線速轉發,存儲IOPS可達100萬,存儲每秒吞吐量可達到5GB,完全可以滿足核心交易系統的交易高峰的訂單處理需求。
低延遲時間:得益于神龍晶片的加速能力,基于神龍架構的第六代增強型執行個體讀延遲最低200 μs,寫延遲能力100μs,每一個資料包最低延遲為20μs。在實際場景中,非常好地滿足了核心交易資料庫的時延需求。
高穩定:與其他無狀态業務不同的是,核心交易資料庫要求金融級的穩定性和容災。穩定性恰恰也是神龍架構最重視的,神龍架構自研了非常輕量級的Dragonfly Hypervisor,在計算的抖動性方面可以做到百萬分之一級别。得益于此,神龍架構順利幫助核心交易資料庫順滑地支撐了雙11購物季。
神龍架構,為全球最大規模的雲原生實踐提供支撐
2020年雙11最重要的是完成了全球最大規模的雲原生實踐,創造了諸多的“雲原生的第一次”:80%核心業務部署在阿裡雲容器ACK上,可在1小時内擴充超百萬容器;首次大規模應用Serverless,彈性伸縮性能提升10倍以上;雲原生中間件峰值調用量超百億QPS。
與此同時,計算的紀錄也被不斷重新整理:實時計算Flink處理峰值達40億條/秒,相當于一秒看完500萬本新華字典的所有資訊;MaxCompute單日計算資料量達1.7EB,相當于為全球70多億人每人處理230張高清照片。
神龍架構是真正為雲原生場景打造的計算平台,為這場最大規模的雲原生實踐提供了堅實的底座。神龍架構通過I/O offload晶片加速,對容器等産品适配程度極高,能高效排程和自動化彈性伸縮的容器化産品,具備在3分鐘啟動50萬核vCPU的極速彈性能力。
事實上,從設計到實作,神龍架構都是“為雲而生”,不僅使得阿裡雲伺服器比傳統實體伺服器性能更強勁,還能極大地幫助客戶節省計算成本。最終,神龍架構為這場雲原生化運動帶來了澎湃動力和極緻效能:每萬筆峰值交易的IT成本較四年前下降了80%,規模化應用傳遞效率提升了一倍之多。
單執行個體可用性99.975%的底氣,平穩應對“當機”突襲大考
全鍊路壓測演練是備戰雙11必不可少的環節,我們為突襲演練專門設計了App,簡化成一個“按鈕”,串聯了阿裡巴巴經濟體的各種技術架構和業務手段。今年的演練多了一些意料之外的實彈突襲,包括斷網攻擊、叢集當機攻擊和資料中心斷電攻擊等。突襲攻擊如此兇猛,讓技術工程師們沒有一絲絲的防備。
10月某個淩晨的2點,“按鈕”被按下,神龍雲伺服器被注入故障代碼,一個擁有近千台伺服器的叢集瞬間當機。
不到2分鐘,運維監控大屏顯示網絡數值迅速下跌,技術保障團隊迅速鎖定故障源頭、啟動應急預案,緊急展開修複,随後确認主備切換。
10分鐘,主備雲伺服器完成切換,一切恢複如常。
這似乎很瘋狂,但能讓公司提前為包括當機在内的各種故障做好準備,将其影響降至最低,同時倒逼阿裡技術持續進化,包括神龍架構。
神龍架構在這次當機突襲中表現突出,架構健壯性經受住了大考,這要歸功于ECS提供的主機遷移的功能,其實作依賴于配置可遷移、資源可遷移,網絡可遷移,存儲可遷移等關鍵技術,可以最小化降低客戶業務中斷。
同時,神龍架構還彙集了阿裡雲十年累積的上百萬伺服器曆史故障資料、異常預測算法以及軟硬結合的故障隔離、硬體加速的熱遷移等能力于一身,能夠保障70%以上的正常軟硬體故障在發生之前無感消除。這些也是使得阿裡雲敢将單執行個體可用性目标提升至99.975%、多可用區多執行個體可用性目标定為 99.995%的底氣所在,這也是雙11所有業務敢上雲的原因之一。
作為阿裡雲基礎産品部門最大的跨部門協同項目,第三代神龍架構疊代更新涉及到神龍計算、ECS、VPC、存儲、AIS伺服器和AIS實體網絡等衆多團隊,更是經過長達兩年的預研評估、産品立項、技術研發和灰階測試,最終才完成了阿裡巴巴經濟體所有業務負載100%在神龍公有雲部署。雙11是阿裡雲産品、技術和服務最大的“試煉場”,全量并順利承載雙11大促所有業務就是神龍架構能力最好的證明。
目前,阿裡雲自研的神龍雲伺服器支撐了各種流量高峰:如12306的春運搶票、微網誌熱點的暴漲流量、釘釘2小時擴容10萬台雲伺服器等。未來,曆經多年雙11實踐考驗的神龍架構将緻力于更好地幫助客戶實作業務的快速創新和飛躍。