來源 | 阿裡雲基礎設施微信公衆号

本期精彩
- 連續三年入選國際頂會,彰顯了阿裡雲基礎設施網絡團隊的技術沉澱和強大的研發實力
- SNA計算平台已在阿裡雲各個場景規模部署,例如網絡可視化、邊緣雲超融合網關、安全、高性能、以及雲網關等。
- XLINK已內建在手淘完成了大規模測試,測試結果優異,即将開源XLINK的整體架構和協定,将着力與整個業界一同打造多路徑QUIC協定,為消費者提供更好的體驗。
近日,SIGCOMM 2021論文錄取結果公布,阿裡雲網絡以三篇論文命中的驕人戰績向世人展示着來自東方的創新風暴,也續寫了阿裡雲基礎設施網絡團隊從2019年開始與SIGCOMM 不間斷的“緣分”!
SIGCOMM,全稱Special Interest Group on Data Communication,是目前國際通信網絡領域的頂尖會議,也是全球最頂尖科研機構、高校和網際網路公司展示自身最先進技術和經驗,帶領網絡技術各個領域向前發展的年度盛會。2019年,阿裡雲基礎設施網絡團隊在SIGCOMM上實作了主會論文的首次曆史性突破,2020年,4篇論文入選震動了網絡界,今年又再中三元。連續三年入選國際頂會,也彰顯了阿裡雲基礎設施網絡團隊的技術沉澱和強大的研發實力。
與一般學術論文不同的是,此次入選的三篇論文不但有創新性想法,更重要的是将理論落地,運用在阿裡的具體産品中,為使用者帶來技術普惠。下面我們将近距離看一下,這三顆阿裡網絡技術的“明珠”到底憑什麼秘訣得到SIGCOMM評委的青睐。
Aquila:阿裡雲可程式設計異構計算驗證器
可程式設計交換晶片(programmable switching ASIC)自 2015年問世以來,就受到了全球幾乎所有雲網絡公司及科研學術界的極大關注與歡迎。它可以看做是一種異構計算硬體,其本質是通過對交換機晶片的程式設計,将原本依賴CPU計算的軟體版網絡應用“解除安裝”到交換晶片硬體上,進而獲得高達T級的網絡資料包處理能力,極大提升網絡應用的帶寬且降低延遲;同時,由于可程式設計晶片的靈活可程式設計性,開發人員可以像軟體開發一樣靈活地的定制交換晶片的處理邏輯。目前的主流晶片廠商已紛紛推出了各自的可程式設計晶片,利用可程式設計晶片來加速基礎設施的處理能力已被認為是未來一條重要的技術方向。
然而,在過去幾年,雖然學術界同仁發表了大量利用可程式設計晶片實作各種應用的論文,卻從未看到任何雲網絡公司大規模部署可程式設計晶片的執行個體。究其原因,主要由于該技術尚屬于較為前沿階段,雖然其價值被廣泛認可,但其部署效率、穩定性等都存在諸多技術挑戰和開放性難題,是以令很多科技公司望而卻步。
阿裡雲基礎設施網絡團隊作為可程式設計網絡領域的早期發起者和推動者,多年以來一直緻力于在整個可程式設計網絡的應用和生态平台上做出突破性的工作,帶動整個産業向前發展。在阿裡雲諸多工作中,“太玄OS”可程式設計網絡開發、驗證、測試和釋出平台成為了一個在學術和産業落地雙豐收的明星項目(如圖1所示)。在SIGCOMM20,太玄OS發表了自己的跨平台程式設計語言和編譯器Lyra(“Lyra: A Cross-Platform Language and Compiler for Data Plane Programming on Heterogeneous ASICs”),闡明了可程式設計網絡領域在程式設計抽象層面的巨大挑戰和揭示了阿裡雲的解決方案。
圖1|阿裡雲基礎設施網絡團隊自主研發的“太玄OS”可程式設計網絡異構計算平台
今年,阿裡雲基礎設施網絡團隊又發表了Lyra的姊妹篇Aquila (“Aquila: A Practically Usable Verification System for Production-Scale Programmable Data Planes ”)來介紹阿裡對可程式設計網絡程式正确性保障方面的獨樹一幟的創新和大規模的落地經驗。Aquila的目标是利用形式化驗證的方法來發現異構環境下底層程式的bug,以避免系統上線後的穩定性風險。它通過實際的運作和部署經驗指出了目前學術界在這個方面的工作的不足,并且通過自主研發的系統解決了如:表達性、可擴充性、可追溯性和驗證器自證清白能力等在業界懸而未決的問題。Aquila已經在阿裡雲ENS/CDN的邊緣計算場景中大量使用,為阿裡邊緣雲的穩定性保駕護航。
XGW:阿裡雲可程式設計硬體網關
阿裡雲在可程式設計網絡領域的另一個重要舉措就是打造自主可控的以SNA (Smart Networking Appliance) 硬體和AliNOS (Alibaba Network Operating System)軟體為基礎的軟硬體一體化的可程式設計計算平台和在這個平台上的應用。圖2展示了整個阿裡自研SNA可程式設計計算平台的概覽。SNA平台的軟體層運作阿裡自研的網絡作業系統AliNOS,硬體層包含了可程式設計晶片、FPGA、x86以及靈活插口等。SNA作為底層裝置,上面由平台能力如:監控、傳遞/變更、太玄編譯/驗證,以及測試等保證SNA的營運效率與穩定性。目前,SNA計算平台已在阿裡雲各個場景規模部署,例如網絡可視化、邊緣雲超融合網關、安全、高性能、以及雲網關等。在SIGCOMM20中,阿裡雲基礎設施網絡團隊發表的“NetSeer:Flow Event Telemetry on Programmable Data Plane”就已經率先揭開了阿裡雲在可程式設計網絡應用上的冰山一角。
圖2|阿裡雲基礎設施網絡團隊自主研發的可程式設計網關軟硬體體系
今年阿裡雲基礎設施網絡團隊和網絡産品團隊(洛神雲網絡)共同合作的“Sailfish: Accelerating Cloud-Scale Multi-Tenant Multi-Service Gateways with Programmable Switches”被SIGCOMM21錄取,繼續着阿裡在可程式設計網絡應用方面的領軍地位。這個内部代号為XGW (eXtendable GateWay) 的雲網關系統是利用SNA這樣的平台來替代CPU,提高轉發性能的同時減小部署成本的典範。在阿裡雲網絡技術和産品同學的共同努力下,XGW已經實作了超大規模部署,為億萬阿裡雲使用者提供了高性能,高品質的雲網絡服務。
XLINK:阿裡巴巴主導的多路徑QUIC方案
除了雲網絡領域,今年阿裡巴巴也在移動網絡傳輸領域發出了“時代最強音”。阿裡巴巴在IETF QUIC工作組提出自己的多路徑草案并且廣受關注之後,由達摩院XG實驗室、手淘淘系技術、阿裡雲基礎設施網絡團隊共同合作研發的XLINK(“XLINK: QoE-Driven Multi-Path QUIC Transport in Large-scale Video Services”)也被SIGCOMM21正式接收。
圖3|XLINK的整體系統架構
QUIC技術是由Google提出, 并于2017年在SIGCOMM會議上發表了QUIC相關論文, 引起了業界的巨大反響, 今年IETF QUIC 1.0标準工作正式完成, 下一代HTTP協定HTTP3正是基于QUIC來實作的。可以說, QUIC是目前移動網際網路中最核心和關鍵的技術, 現如今, 超過50%的Chrome浏覽器流量和75%的Facebook流量都在使用QUIC進行傳輸。 經過過去幾年的不懈努力, 阿裡巴巴從QUIC技術的追随者快速成長為QUIC技術的創新者, 并在多路徑QUIC技術上取得了突破, XLINK相關論文已經被頂級學術會議SIGCOMM 2021正式接收, 這也是SIGCOMM會議曆史上第一篇關于多路徑QUIC的文章。
XLINK已經內建在手淘完成了大規模測試, 測試結果表明, XLINK在弱網下使用可以實作短視訊下載下傳時間降低50%, 首幀加載時間降低32%, 視訊卡頓率降低66%, 額外的流量成本降低85%。此外, 在高鐵上, XLINK的使用者可以同時連接配接高鐵WiFi與手機LTE, 在高速移動的情況下仍然保持流暢的視訊觀看體驗。另外,阿裡巴巴也即将開源XLINK的整體架構和協定,将着力與整個業界一同打造多路徑QUIC協定,為消費者提供更好的體驗。
俗話說“十全十美”,2021年對于阿裡網絡技術人來說也是一個圓滿的一年。從2019開始,截止目前,阿裡網絡技術已經有10篇SIGCOMM論文被錄取。網絡領域衆多國際專家紛紛被阿裡論文“圈粉”,因為不但有創新大膽超前的思維,更重要的是阿裡堅持技術創新,把技術與實際應用場景相結合,讓技術“走出”實驗室,實作“技術普惠”。
除了SIGCOMM,今年阿裡雲基礎設施網也在系統領域頂級會議USENIX ATC發表了論文“Hashing Linearity Enables Relative Path Control in Data Centers”來介紹已經在阿裡網絡自研交換機部署的交換晶片hash算法特性分析,以及DCMR多路徑故障恢複的方法,這也同樣是阿裡網絡技術創新和落地相融合的代言。