天天看點

如何加速雲原生資料應用?這個開源項目備受關注

自2020年9月Fluid正式對外開源,發展短短一年時間, Fluid 便一次獲得兩項開源界的重要認可,證明着其所專注的雲原生、AI 領域也正在迎來廣泛關注。這其中的意義和價值如何?我們嘗試管中察豹,從 Fluid 的發展背景和實區實踐聊表觀點。

2021 年 9 月 17 日,在由中國資訊通信研究院、中國通信标準化協會聯合主辦的“2021 OSCAR 開源産業大會”上,由阿裡雲雲原生團隊聯合發起(其他聯合機關包括:南京大學、Alluxio 社群)的開源項目 Fluid 榮獲“ OSCAR 尖峰開源項目和開源社群”獎項;同時,作為 Fluid 項目的聯合發起人和社群營運主席,來自南京大學 PASALab 的顧榮副研究員被評選為“開源人物”。

如何加速雲原生資料應用?這個開源項目備受關注
如何加速雲原生資料應用?這個開源項目備受關注

Fluid 于 2020 年 9 月正式對外開源。很多熟悉 Fluid 的朋友都知道,該項目的本質是一個雲原生資料編排和加速系統,于 2021 年 5 月正式成為 CNCF Sandbox 項目,幫助業界完善在雲原生 AI 領域的一塊重要版圖。

發展不過短短一年時間, Fluid 便一次獲得兩項開源界的重要認可,證明着其所專注的雲原生、AI 領域也正在迎來廣泛關注。這其中的意義和價值如何?我們嘗試管中察豹,從 Fluid 的發展背景和實區實踐聊表觀點。

雲原生 + AI,企業數字化創新的循環引擎

今年是十四五的開局之年。2021 年 3 月,新華社全文公布了《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目标綱要》(以下簡稱“綱要”)。作為未來五年産業發展、科技創新等的重要行動綱領,綱要中有三個關鍵詞格外引人關注:“人工智能”、“雲計算”,和首次被列進規劃的“開源”。

作為構築數字經濟的基礎設施,雲計算正像水電瓦斯一樣,滲透至各行各業,用潤物細無聲來形容也毫不為過。近年來,以容器、微服務、DevOps 為代表的雲原生技術,使雲端強大的服務能力得到充分釋放,加速了基礎設施的靈活化,進一步實作企業生産效能的提升,因為被喻為“企業數字化轉型的最短路徑”。

作為在資訊基礎設施上承載的主要資源,“資料”則可以看成是新型基礎設施的“血液”。AI 技術與雲計算的深度融合趨勢, 也進一步對算力和應用架構提出了新要求。

回溯 AI 領域主要技術架構的發展,如 Spark,Hive,MapReduce ,為了減少資料傳輸,其設計更多地考慮資料本地化架構。但随着技術環境和應用需求的不斷更疊,為兼顧資源擴充的靈活性與使用成本,計算和存儲分離的架構在雲原生環境中逐漸成為主流。這種計算存儲分離架構在提升系統彈性和靈活性的同時,也給 AI 等資料密集型應用帶來了計算性能和管理效率方面的挑戰。

為了解決現有雲原生編排架構運作此類應用面臨資料通路延時高、多資料源聯合分析難、應用使用資料過程複雜等痛點,阿裡雲雲原生團隊、南京大學、Alluxio 社群聯合發起并開源的雲原生資料編排和加速系統 Fluid ,該項目于 2021 年 5 月正式被 CNCF 接納為 Sandbox 項目,加速資料密集型應用全面擁抱雲原生。

如何加速雲原生資料應用?這個開源項目備受關注

核心功能:

Fluid 在雲原生應用與資料的協同編排、排程優化、資料緩存等幾方面提出一系列技術創新,其核心功能包括:

  • 提供存儲無感覺的資料對象-資料集(Dataset):通過自定義資源對象 (Custom Resource Definition)實作對不同存儲系統的統一抽象定義與管理,支援可觀測性和彈性伸縮。
  • 利用分布式緩存技術加速資料集讀寫:通過擴充 CacheRuntime 對象,自定義并管理分布式資料緩存引擎。目前已原生支援緩存引擎 Alluxio 和 JindoFS。
  • 基于容器排程的智能資料編排:基于 Kubernetes 容器排程和擴縮容能力,實作資料緩存的智能化編排。
  • 資料集與應用協同排程:擴充 Kubernetes 排程器感覺資料集緩存資訊,就近排程應用,發揮本地讀寫緩存的性能優勢。
  • 标準通路接口:使用 Kubernetes 标準存儲接口 Persistent Volume Claim 通路資料集,實作無縫相容雲原生應用。
  • 面向場景的性能調優:針對深度學習、批量資料處理等任務,提供資料集預熱、中繼資料管理優化、小檔案 IO 優化、自動彈性伸縮等手段,普遍提升任務運作效率。

開源成為生産環境下 AI 應用雲原生化重要選擇

在本次開源産業大會上,信通院雲計算與大資料研究所所長何寶宏、中國通信标準化協會常務副秘書長兼副理事長代曉慧等嘉賓發表重點觀點,表示開源是軟體業新的生産方式,也是一種新的傳遞方式,這種方式經過二十多年的發展,已經發展成熟。它既可以充分調動個人主觀能動性,通過社群協同機制進行思想碰撞,激發技術創新,引領新一代通用技術發展,更建構了新的合作模式,通過代碼公開、規則公開、過程公開,營造透明、開放的社群環境,并通過代碼檢測,自動形成安全前置,有效打消了企業及個人參加的顧慮,建立了信任機制,已成為企業建構資訊系統的重要選擇。

這些觀點在 Fluid 開源社群中也得到了充分的印證。從正式被創立之日起,共建 Fluid 的各方就緻力于通過結合學術界的原創研究和工業界的落地實踐能力,加速雲原生基礎設施擁抱資料密集型應用,并且秉持開源精神與社群一同推動 Kubernetes 平台應用使用和管理資料的統一界面的建構和使用。

正式開源來的短短在一年時間裡,Fluid 借助社群的力量迅速發展,得到來自中國電信、微網誌、Boss 直聘、第四範式、雲知聲等衆多企業的專家和工程師的關注,并貢獻了大量的開發工作,包括微網誌、中國電信、毫末智行等多家大型知名 IT 和網際網路企業都成功将Fluid 應用于生産環境下資料密集型應用的開發與部署,大大提升了資源利用效率和應用性能。

如何加速雲原生資料應用?這個開源項目備受關注

Fluid 的開源實踐,不僅得到了來自各界的認可,也為企業在雲上以原生的方式創新資料密集型應用開發和部署,加速資料的流通、彙集、處理和價值挖掘,提升應用生産效率提供了可以信賴的經驗和方法。

作為對原生 Kubernetes 生态完全相容的資料密集型應用運作支撐平台,Fluid 将向更靈活、智能、可擴充的架構方向發展,不斷提升開發者和使用者使用體驗。未來,Fluid 将繼續與社群并肩、與生态同行,緻力于推進雲原生技術在 AI 等領域的生态建設與普及,與全球開發者一起拓展雲原生的邊界。

戳連結(https://github.com/fluid-cloudnative/fluid),檢視 Fluid 開源項目 github 首頁!

繼續閱讀