天天看點

雙11背後通信技術解讀:大促場景下雲通信高可用、穩定性實戰

為了幫助使用者更好地了解和使用雲通信的産品,秒懂雲通信系統課程還在繼續中。12月21日的秒懂雲通信,阿裡雲進階技術專家盧彬彬分享了《安全可靠 穩如泰山+揭秘雙11背後阿裡雲通信黑科技》,帶你了解電商大促場景下雲通信是如何賦能全鍊路高效連接配接,確定系統的高可用、穩定性的最佳實戰。

雙11背後通信技術解讀:大促場景下雲通信高可用、穩定性實戰
本次分享主要包括三個方面,第一是針對和穩定性,雲通信業務架構如何保證;第二是從流量和整個流程和機制上,如何保障穩定性;第三是流量控制體系是怎麼支援雲通信的高可用、穩定性的。

雲通信平台技術架構

雲通信的整體平台架構建構在阿裡雲的基礎設施之上,技術架構上則分成三層的架構:

第一層架構多網關分組這一層,主要是面向供應鍊體系,通過多協定适配、多接入方式、多region部署解決供應鍊資源快速的接入和使用,同時在高可用性上通過實體、邏輯多元度的隔離的隔離措施以及全覆寫的心跳管理體系,解決供應鍊通道出現故障時的快速隔離和恢複。

第二層是業務處理層,核心包括風控體系以及資源的智能排程、智能決策。主要是針對通信業務比較核心的基礎能力平台,技術上基于多隊列、削峰填谷、業務客戶等次元資源隔離、延遲、限流、降級容災等一系列的手段保障平台穩定運作。通過這些年的積累,形成了通信業務的安全、排程平台,結合ASR、TTS、NLP等AI技術,解決業務的安全、多模型的排程政策,讓通信業務更健康、更高效的觸達消費者。

最上層是面向客戶的統一接入層,為了能讓客戶更友善的管理和使用雲通信的服務,除了提供官網控制台的基礎開通、查詢等功能,我也提供了面向開發者的多語言的OpenAPI SDK以及移動、PC端側SDK,覆寫各種業務場景,通過技術手段幫助客戶快速、便捷地內建使用雲通信的能力。

雙11背後通信技術解讀:大促場景下雲通信高可用、穩定性實戰

多網關分組架構

大促場景下流量是非常大的,雲通信在面對洪峰流量的時候,需要按照業務場景進行隔離,針對容災情況、資源、供應鍊、熱點資料處理進行隔離。這一套非常标準的流程和機制,能保證雲通信針對高并發的情況下的系統穩定性,實作客戶角度的完全無感覺。

流量控制系統架構

通常在大促場景下,客戶的入口流量可能會呈現非常大的突發性,從客戶入口量進來以後,經過中間這層核心的流量管控機制,最終保證客戶的請求非常平穩的分發到不同的地域、分組以及機房。

雙11背後通信技術解讀:大促場景下雲通信高可用、穩定性實戰

再舉個一個更實際的例子,假設我們把洪峰流量比喻成水流,那麼流量控制系統就是三峽這樣的水利系統,當遭遇流量洪峰,如果不被很好控制,很有可能會帶來業務場景的損失,或者達不到SLA要求,是以流量管控體系非常重要。

基于阿裡雲通信流量控制系統,即使入口流量非常巨大,也能通過流量控制器将并發流量平緩、穩定的分發到不同網關和地域分組上,保證資源的穩定性。同時,任何一個節點出現了不穩定的情況,系統都會第一時間感覺并且做出調整,整個過程客戶無感覺。對于整個流量控制系統的架構來說,客戶從入口流量到出口流量的場景是非常豐富、複雜的,而阿裡雲通信整體的控制體系可以完成自動化的閉環,利用削峰填谷等平滑排程政策,保證業務的平穩。此外,在決策系統會按照客戶與資源的情況進行一個最佳的比對,確定延遲、成功率、穩定性等均得到保障。

總而言之,阿裡雲基于資料、算法和平台,打造的一套完整的流量控制體系,可以實作從入口流量的客戶場景轉換,到資源池、邏輯資源、實體資源、通道、網關連接配接等全鍊路的自動化比對轉換,實作全生命周期閉環管理。

從一個具體場景來看,從入口流量開始,假設一個客戶批量請求了100萬短信,流量控制體系第一道先把客戶的請求按照場景先做一層緩沖控制。轉換完以後,結合實際的資源情況做了一層供需關系的一個比對和控制。最終我們分發到單個連接配接的QPS的時候,從客戶的入口流量來說,瞬間請求可能達到10萬QPS,而真正分發到單連接配接的時候就變成非常低了,對于營運商來說,他的系統也是非常穩定的。是以也不會因為客戶入口流量沖擊導緻出口流量不穩定,以此來保證無論客戶使用場景多複雜,最終的SLA和請求耗時、延遲都能滿足客戶需求。

如何保證平台運作穩定?

在企業生産過程中,平台運作的穩定性是重中之重。“在穩定性上, “1、5、10”是我們始終追求的目标,1分鐘發現,5分鐘定位,10分鐘恢複。”在系統的穩定性和高可靠上主要是圍繞4個方向展開。

雙11背後通信技術解讀:大促場景下雲通信高可用、穩定性實戰

第一是在全鍊路的容災體系建設,目前整體鍊路包括對于第三方的依賴完整支援了雙機房、雙活高可用體系的建設。在整個鍊路上通過心跳等實時探測機制,在應用、機器、機房次元出現故障是具備分鐘級别隔離的能力。基于阿裡本身沉澱的故障演練機制,會通過定期、突襲的演練方式,發現問題逐漸疊代完善、演進平台的技術架構。

第二是在統一的接入和網關的接入層面,采用了多region的政策,就近邊緣部署,降低接入成本,降低資料在實體網絡鍊路傳輸過程中的時延,保障通話品質。同時,跨region的容災體系可以在當某個region出故障的時候,能夠切換到另外一個region進行服務,進一步提升服務的穩定性。

第三是主要在網關層面,通過不同的接入方式,以及多元度降級、逃生的容災政策,基于客戶特性、産品特性和資源特性做了不同次元的降級和切換政策來保障極端情況下的業務持續可用。

第四是在整個鍊路層面進行監測以及分級告警,針對核心業務和核心鍊路提供7x24小時運維保障,針對系統運作過程中出現的告警定義了p1-p4的分級,對不同級别的告警我們采用了多種的觸達方式,如釘釘消息、短信、電話形式進行不同配置的觸達,通過告警的更新和觸達方式的更新盡可能保證在最短的時間内發現問題、處理問題,恢複線上的生産。

後續更多産品、技術和活動資訊,可以進入雲通信官方交流群進行了解:

雙11背後通信技術解讀:大促場景下雲通信高可用、穩定性實戰

點選觀看直播回放:

https://yqh.aliyun.com/live/detail/21594

點選進入秒懂雲通信,擷取更多視訊:

https://yqh.aliyun.com/live/cloudcommunication-videos

繼續閱讀