天天看點

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

“扛住了!扛住了!赢了!”寸步不離緊盯資料大屏的京東備戰團隊轉瞬間一片歡呼雀躍,伴随着零點二十分鐘左右最後一輪紅包互動的如約而至,京東首次“春晚征程”圓滿落下帷幕。

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

除夕當天參與一線值守的京東雲技術人員歡慶圓滿完成任務

相比過往入局者們争先恐後打響線上流量争奪的狙擊戰,京東這次可謂克服“流量+履約”的“難上加難”, 不但從容應對了高達數億峰值的極端并發流量洗禮;還有序肩負起全國“年貨春運”中零售和物流等整體供應鍊履約,妥妥重新整理春晚全球最複雜技術場景紀錄,堪稱絕絕子!

回顧前期籌備的種種時刻,今年的春晚紅包互動着實給京東出了一道不小的難題!“此過程中,京東技術體系需要支援紅包互動及購物交易場景,兩個場景差異性大,峰值頻繁往返切換,技術挑戰極大;另外除紅包互動場景外正值年貨節,京東技術體系還需要支援京東的交易、支付、客服、分揀、配送等衆多業務場景,鍊路超長。每一個鍊路節點的增加,都大幅提升了項目技術系統的複雜度和保障難度。這座極具技術挑戰的‘珠穆朗瑪’不好攀登!”備戰團隊成員們紛紛表示。

但令人驚歎的是,僅僅19天,在不增加計算資源且獨立支援的情況下,超10000名技術人員基于京東雲行雲研發效能平台協同作戰,憑借早已修煉多年的雲原生數字基礎設施以及曆經多次大規模場景技術錘煉的混合多雲作業系統雲艦等技術,利用遍布全國的70多座資料中心,為世界級最大規模互動成功搭建了一個超高彈性、高效靈活的數字底座,成功應對了史上最高網絡互動流量高峰與最複雜應用場景。

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

奮戰在一線的京東雲技術人員

4小時互動不斷、累計互動量達691億次、上萬名技術人員高效協同、16次秒級精準騰挪、秒級資源順暢切換……京東雲憑啥能成?

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

“京東第一次!春晚紅包互動,我們可是立了軍令狀!”

“這是京東第一次獨立支援春晚紅包互動這麼個大項目,一定要打個漂亮仗!“談起容易做起來卻非常難!京東紅包項目組技術負責人介紹,“春晚互動項目不僅僅是一個極具挑戰性的技術問題,更是一個多部門高效協作的問題,時間緊、任務急、挑戰大、涉及人員複雜等問題都是必須要應對的。為此我們在短時間内專門拉通了數十個一級部門,超過一萬名以上的研發人員聯手作戰,實作多個業務系統的有序對接和調優,讓整個項目高效協同起來。”備戰之初,京東就已形成了完善的備戰體系架構:由備戰總指揮統一部署,項目備戰團隊跟進,統一協調橫跨零售、科技、物流等多個部門的所有研發團隊。

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

京東雲産品研發部工程師讨論春晚項目

據悉京東技術體系有超3000名技術人員參與了項目的技術攻關與保障工作,除夕當天參與一線值守的技術保障人員就多達2000人。超萬名京東人協同作戰的背後,是跨度多達一個月的年貨節、春晚紅包互動等精彩時刻,更重要的是為全國消費者創造了極緻體驗并帶動數十萬商家、客戶與合作夥伴共同分享了節日盛宴的喜慶祥和。

用“變形金剛”的思維來應對這次的“難上加難”

掐指一算,春晚紅包互動已經邁入第七個年頭,今年京東雲在首次護航虎年春晚中完全告别通過單純增加伺服器資源來攻克高并發的傳統操作,憑借更加高效靈活的資源騰挪排程以及雲原生基礎設施、混合多雲作業系統雲艦等技術殺手锏,根據“戰場”變化而快速“變身”滿足需求,就像變形金剛一樣。

對此2022春晚項目IDC基礎保障負責人、京東雲基礎設施研發部進階總監,負責京東雲基礎設施研發部進階總監常亮表示:“為了應對本次春晚互動,我們并沒有單獨準備額外的資源,一方面因為短期臨時投入過大,與京東雲長期追求的精細化研發資源管理理念相悖;另一方面由于疫情導緻的全球供應鍊緊張,讓增加資源的客觀路徑變得行不通。是以僅僅就是通過之前‘618’以及‘11.11’的資源,通過内部快速騰挪以及擴容,做到秒級排程近300萬個容器、超1000萬核算力資源在春晚互動以及年貨春運兩種模式中迅速切換,雖然困難很大但我們成功了。”

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

除夕值守的京東雲技術人員進行春晚前的工作部署

從拆借資源滿足複雜需求過渡到提升系統架構的高效靈活能力做到快速變陣來應對紛繁挑戰,尤其是鍛造提升大規模場景極端并發下的能力,在某種程度上代表着雲廠商技術能力的持續性創新,這一次京東雲借助春晚舞台可謂身體力行。

從資源優化的角度深挖下去,我們知道,本次春晚紅包互動的難點就在于“紅包+消費”疊加帶來的全鍊路複雜性,“如此高并發的流量下,過去在大促環節中使用的雙活架構在應對挑戰時顯然後力不足,是以很重要的就是通過業務評估完成系統分級來達成資源的最優化調配。”基于此,項目籌備團隊早早預想到并制定了分級标準(SABC)來完成資源的動态調整與更新。例如在春晚互動環節中,紅包互動鍊路系統就為S級,反之其他則會酌情降級,這樣一來就可確定在互動過程中高優先級的應用系統盡量多得到資源使用機會,做到“更少資源辦大事兒”。

當然在靈活靈活的資源應對提升上,本次春晚紅包互動項目照例亮出了京東雲“當家王牌”,即強大的混合多雲作業系統雲艦。得益于京東雲從内而發的雲原生技術穩定支援,通過發揮其針對大規模異構基礎設施的靈活排程以及資源靈活平滑擴容等能力,確定全局資源編排和成本最優、系統運作最穩。尤其是内嵌其中的智能排程系統,利用了機器學習、深度學習智能算法,對應用資源使用情況進行預測來完成彈性優化;同時,超大規模離線上混部技術也在本次技術籌備中為化解長周期脈沖式流量洪峰實作了有限資源的充分利用,原來三台機器能解決的問題,這次隻要一台就搞定了,讓算力發揮出最大價值。

談及将“人算”做到極緻來迎接“天算”的考驗,這次備戰項目團隊也頗有心得。為了做到靈活靈活的響應,團隊在活動前就對可能發生的流量分布進行了預測。例如根據過往觀看春晚并參與活動的多元資料,率先繪制了“流量地圖”來提前預判地域流量差異,并進行資源的針對性部署。

關于預測,春晚項目T-PaaS及中間件負責人張金柱做了一個形象生動的比喻:“如果将這次紅包互動項目看作是讓數以億計的觀衆快速進入到某個場館來觀看比賽的話,中間件其實相當于場館的各個通道。我們需要配合資源排程系統快速、合理地打開這些通道,承接湧入的人流,保證大家有序、可控地進入到自己的座位觀看比賽,其實就是確定大家能夠順利參與到紅包互動中來。對此我們會根據目前掌握的資料分析預判大流量可能出現的環節,并做好對應的資源部署與調整的同時,預判流量流轉的路徑以及走向,做好把控和引導及時響應資源需求來進行擴縮容,確定‘有限的資源用在刀刃上’以及快就一個字。”

春晚互動以及保障方案的快速落地,除了在很大程度上展現了京東雲積木化IT思維,更是多年來應對自身6.18和11.11的常态化備戰經驗。這次針對可能出現的意外情況,京東雲首創“應急劇本”作為異常演練預案。“在備戰過程中,通過多達7輪的壓力測試,其中還包括公網壓測以及斷網演練等,反複練習預案的操作步驟并觀察效果,同時還要考察系統上運作的應用的健康度,進而驗證是否符合預期效果并不斷調整,更好應對突發的業務異常和子產品異常等情況,為互動保駕護航。”重保人員總結道。

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

如今的京東雲可通過一站式安全、高效生産體系來助力研發進行全鍊路、全方位的架構更新和精細化資源管理,做到越來越多依靠系統來確定重大節點的穩定,而不是單純依靠技術人力,這是打磨了兩年的泰山項目的可貴經驗,更是快速平穩應對特殊業務場景的能力修煉。

洪峰疊加履約 從單純上雲到更好用雲

記憶猶新的春晚流量洪峰背後,是龐大而複雜的世界級的供應鍊應用場景。衆所周知,本次京東在支援春晚的同時還肩負起了支援全國“年貨春運”中零售和物流等整體供應鍊履約的工作,涉及前端App平台、訂單、結算、支付、搜尋、推薦,到後端的倉儲、配送、客服、售後等多種業務系統,可以說依靠多年在業務場景淬煉而成的“雲鍊一體”高響應、高靈活能力,成功唱響一曲:從單純“上雲”滿足業務需求到“用好雲”、提升創新效能的高歌,不僅僅展現了自身的硬核技術實力,更能夠看做是中國雲計算行業創新發展的一道剪影。

長期以來,京東對供應鍊的全鍊路進行了應用創新,實作近1000萬自營商品的世界級庫存周轉,全國超300座城市的分鐘級送達;利用智能供應鍊超級自動化完成對商品全流程進行智能決策+自動采買,并采用“京慧”數字化供應鍊服務解決方案,為海量商家提供一體化供應鍊優化決策服務,這次更是攜手更多實體企業在春節期間繼續實作高品質增長。

另外2022年作為京東連續第10年“春節也送貨”:讓全國30個省份、超過300個城市、近1500個區縣的消費者,即使是在除夕、大年初一也可以正常下單收貨,享受超過20萬名京東物流小哥送貨上門的春節物流服務,用“年貨春運”充分滿足商家與消費者在春節期間的服務需求。

當然要實作“更快更好”的物流配送目标,確定訂單的短時高效準确送達,平台智能訂單分發系統、運力調控系統、顧客與商家雙向資料的實時同步運算都面臨着極大挑戰,此時安全及穩定的雲服務底座就顯得格外重要。

目前京東物流已實作全量上雲,“跑”在雲上的資料庫根據預先估計好的資料量做好資源規劃和配置設定,真正洪峰到來之時雲資料庫就會通過高可用架構、自動故障切換、彈性擴容機制等一系列資料庫級别的技術手段,保證資料可備份,故障可切換,增量可擴容,從容應對流量高峰期間的資料壓力,充分實作對京東“年貨春運”春節24小時不打烊的全鍊路保障。

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

京東雲支援京東連續第10年春節也送貨

“今年春晚對于支付端的挑戰也是非常大的”,春晚項目支付端負責人表示:“今年除了原有的訂單交易鍊路上的流量之外,在發獎、紅包查閱、使用者登入注冊等多個鍊路均會受到流量洪峰的考驗。”對此京東雲自主産權的支付結算服務平台,充分利用動态規則拆分算法專利解決了海量資料對賬問題,達成核心交易系統持續不間斷能力超99.99%,具備極強的容災能力及可觀的吞吐量,成功應對支撐春晚峰值流量的同時為使用者提供安全、穩定、便捷的紅包互動體驗。

4小時實作16次資源精準騰挪 京東雲成功護航紅包互動的背後

為保障廣大消費者春節期間的使用者體驗,京東首個智能數字人客服芊言也正式上崗啦,緻力提供有技術、有溫度的客戶服務體驗;芊言自然交流、流暢互動的背後是京東雲自主研發的京東智能客服言犀提供世界領先的多模态互動技術。春節期間芊言和其他“客服夥伴”将承載史上最高的SaaS服務流量洪峰,為使用者提供7*24小時全鍊路場景智能化服務。最新資料顯示,自年貨節啟動至春晚結束,京東智能客服言犀累計咨詢服務量達5.5億次,為16.5萬商家提供超1億次服務,陪伴全國人民舒心辦年貨,安心過大年。

曆經備戰時間史上最短、互動活動史上最長、世界上規模最大的網絡互動活動、全球最複雜場景的360度考驗,對京東雲來說,本次春晚紅包互動除了應對極端且複雜場景的綜合技術能力提升之外,更是從流量角逐到産業數字化的變革,從業務“上雲”到“更用好雲”的深化。

繼續閱讀