天天看點

Fluid 進入 CNCF Sandbox,加速大資料和 AI 應用擁抱雲原生

來源 | 阿裡巴巴雲原生公衆号

2021 年 4 月 27 日,雲原生計算基金會(CNCF)宣布通過全球 TOC 投票接納 Fluid 成為 CNCF 官方沙箱項目。Fluid 是一個由南京大學、阿裡雲以及 Alluxio 開源社群聯合發起并開源的雲原生資料編排和加速系統。

Fluid 項目位址:

https://github.com/fluid-cloudnative/fluid

項目介紹

雲原生環境下,計算存儲分離架構在提升系統彈性和靈活性的同時,給大資料 / AI 等資料密集型應用帶來了計算性能和管理效率方面的挑戰。現有雲原生編排架構運作此類應用面臨資料通路延時高、多資料源聯合分析難、應用使用資料過程複雜等痛點。Fluid 正是為解決這些問題而生的。

Fluid 進入 CNCF Sandbox,加速大資料和 AI 應用擁抱雲原生

Fluid 系統架構圖

Fluid 運作在 Kubernetes 上,是一個可擴充的分布式資料編排和加速系統,其目标為建構雲原生環境下資料密集型應用的高效支撐平台。該項目開源于 2020 年 9 月,短短半年多時間内發展迅速,吸引了衆多領域專家和工程師的關注與貢獻,并在包括微網誌、中國電信等多家大型知名IT和網際網路企業中使用。

核心功能

Fluid 在雲原生應用與資料的協同編排、排程優化、資料緩存等幾方面提出一系列技術創新,其核心功能包括:

  • 提供存儲無感覺的資料對象-資料集(Dataset):通過自定義資源對象 (Custom Resource Definition)實作對不同存儲系統的統一抽象定義與管理,支援可觀測性和彈性伸縮。
  • 利用分布式緩存技術加速資料集讀寫:通過擴充 CacheRuntime 對象,自定義并管理分布式資料緩存引擎。目前已原生支援緩存引擎 Alluxio JindoFS
  • 基于容器排程的智能資料編排:基于 Kubernetes 容器排程和擴縮容能力,實作資料緩存的智能化編排。
  • 資料集與應用協同排程:擴充 Kubernetes 排程器感覺資料集緩存資訊,就近排程應用,發揮本地讀寫緩存的性能優勢。
  • 标準通路接口:使用 Kubernetes 标準存儲接口 Persistent Volume Claim  通路資料集,實作無縫相容雲原生應用。
  • 面向場景的性能調優:針對深度學習、批量資料處理等任務,提供資料集預熱、中繼資料管理優化、小檔案 IO 優化、自動彈性伸縮等手段,普遍提升任務運作效率。

展望未來

Fluid 開源項目緻力于通過結合學術界的原創研究和工業界的落地實踐能力,加速雲原生基礎設施擁抱資料密集型應用,與開源社群一同建構 Kubernetes 平台應用使用和管理資料的統一界面。Fluid 開源社群目前有 5 位核心維護者 (Maintainer),分别來自南京大學,阿裡巴巴和 Alluxio,并由來自南京大學 PASALab 的顧榮副研究員擔任開源社群主席。此外,來自中國電信、微網誌、Boss 直聘、第四範式、雲知聲等企業的工程師都貢獻了大量的開發工作。

作為對原生 Kubernetes 生态完全相容的資料密集型應用運作支撐平台,Fluid 将向更靈活、智能、可擴充的架構方向發展,不斷提升開發者和使用者使用體驗。未來,Fluid 将繼續與社群并肩、與生态同行,緻力于推進雲原生技術在大資料 / AI 系統領域的生态建設與普及,與全球開發者一起拓展雲原生的邊界。

歡迎大家持續關注 Fluid 開源項目并積極參與該項目的共建,有問題可以釘釘掃碼進群交流!

Fluid 進入 CNCF Sandbox,加速大資料和 AI 應用擁抱雲原生

繼續閱讀