ATC2021 放榜,接收率再創新低,為18%。同時,3篇最佳論文出爐,阿裡雲送出的關于飛天作業系統的論文占據一席,創下了中國公司最好成績。
近日,計算機系統結構國際頂級學術會議 USENIX ATC線上上舉行。ATC 始辦于1992年,是由USENIX組織的計算機系統領域的頂級會議,至今已成功舉辦31屆,計算機系統領域中Oak語言(JAVA語言的前身)、QEMU、ZooKeeper等一系列有影響力的研究成果都在USENIXATC發表或公布。ATC 對論文要求極高,必須滿足基礎性貢獻、前瞻性影響和堅實系統實作的要求,本次論文錄取率僅為18%,全球僅選取3篇最佳論文。

阿裡雲送出的論文名為《Scaling Large Production Clusters withPartitioned Synchronization》(PDF版),探讨了飛天如何解決大規模計算資源的排程問題,被收錄并榮獲最佳論文獎,這也是ATC最佳論文首次出現中國公司的身影。
飛天是阿裡雲自研的超大規模雲計算作業系統,可将遍布全球的百萬級伺服器連成一台超級計算機,以線上公共服務的方式為社會提供計算能力。飛天的核心服務包括分布式計算、存儲、資料庫、網絡等,本次獲獎的論文就是其中的資源排程服務。
據悉,阿裡雲送出的關于飛天分布式排程系統“fuxi2.0”是阿裡學術合作創新研究計劃(AIR)與香港中文大學Jamescheng老師的合項目成果。該論文讨論了業界分布式排程架構資源沖突嚴重和排程性能差的問題,創造性地提出了一套資源沖突解決機制,實作了排程器在叢集規模上的可擴充性,同時保證極佳的排程性能和排程效果,支撐了飛天大資料平台MaxCompute單叢集10萬節點的規模,4萬作業/秒的并發能力。
雲計算最核心的問題是如何把成千上萬,甚至更大規模的機器高效地組織起來,靈活進行任務排程和管理,使使用者可以像使用一台機器一樣使用雲計算。随着資料和計算量越來越大,雲計算場景也變得超大規模化,以前傳統的基于中心架構的排程器受限于單點處理能力,無法在規模上實作可擴充。
阿裡雲計算平台事業部研究員關濤表示:“分布式系統領域有一個說法,每當規模擴大一個數量級,就變成了一個全新的問題。規模、使用率和公平性是排程系統的三個核心,本次的論文基于阿裡雲飛天系統的部分工作,在不損失使用率和公平性的情況下,探索排程系統在超大規模的可擴充性能力”。
近幾年,飛天作業系統多項研究成果被國際頂會錄取:2019年,資料排程論文Yugong被資料庫頂級會議VLDB錄取;2020年,機器學習&單機排程論文AntMan被作業系統頂級會議OSDI錄取;2021年,計算排程論文Fangorn被資料庫頂級會議VLDB錄取。