天天看點

官宣!ASF官方正式宣布Apache Hudi成為頂級項目

官宣!ASF官方正式宣布Apache Hudi成為頂級項目

馬薩諸塞州韋克菲爾德(Wakefield,MA)- 2020年6月 - Apache軟體基金會(ASF)、350多個開源項目和全職開發人員、管理人員和孵化器宣布:Apache Hudi正式成為Apache頂級項目(TLP)。在投票表決Hudi畢業時,Hudi總共獲得了19票binding(其中包括ASF聯合創始人Jim Jagielski的一票),21票non-binding。

Apache Hudi(Hadoop Upserts Delete and Incremental)資料湖技術可在Apache Hadoop相容的雲存儲和分布式檔案系統之上進行流處理。該項目最初于2016年在Uber開發(代号和發音為"Hoodie"),于2017年開源,并于2019年1月送出給Apache孵化器。

Apache Hudi項目VP Vinoth Chandar說:“在孵化器中學習和發展Apache之道是一種有益的體驗,作為一個社群,我們對我們共同推動該項目走了多遠依然感到謙卑,與此同時,對即将到來的挑戰感到興奮。”

Apache Hudi用于在Apache Hadoop分布式檔案系統(HDFS)或雲存儲上使用流處理原語(例如插入更新和增量更改流)來管理PB級資料湖。Hudi資料湖提供了新鮮的資料,比傳統批處理效率高一個數量級。 核心功能包括:

可插拔式的索引支援快速Upsert / Delete。

事務送出/復原資料。

支援捕獲Hudi表的變更進行流式處理。

支援Apache Hive,Apache Spark,Apache Impala和Presto查詢引擎。

内置資料提取工具,支援Apache Kafka,Apache Sqoop和其他常見資料源。

通過管理檔案大小,存儲布局來優化查詢性能。

基于行存快速提取模式,并支援異步壓縮成列存格式。

用于審計跟蹤的時間軸中繼資料。

阿裡巴巴集團、亞馬遜AWS、EMIS Health、Linknovate、Tathastu.AI、騰訊和Uber等組織。都在使用Apache Hudi,

https://hudi.apache.org/docs/powered_by.html

 提供了使用Hudi的部分清單。

我們很高興看到Apache Hudi畢業成為Apache頂級項目。Apache Hudi在Amazon EMR版本5.28和更高版本中受支援,并使擁有Amazon S3資料湖中資料的客戶能夠執行記錄級的插入,更新和删除操作,以執行隐私法規,更改資料捕獲(CDC)和簡化的資料管道開發 ” AWS總經理Rahul Pathak說。 “我們期待與我們的客戶和Apache Hudi社群合作,以幫助推進該項目。”

Apache Hudi項目管理委員會成員Nishith Agarwal說:“在Uber,Hudi近實時地管理地球上最大的交易資料湖之一,為全球使用者提供有意義的體驗,累計超過150 PB的資料和每天超過5,000億條記錄被提取,Uber的使用範圍從關鍵業務工作流程到分析和機器學習。”

“使用Apache Hudi,使用者可以輕松處理重讀或重寫的場景,并且Hudi使用Apache Parquet和Apache Avro管理存儲在HDFS/COS/CHDFS上的基礎資料。”騰訊雲實時計算服務技術負責人Felix Zheng說道。

“随着雲的基礎設施越來越完善,使用者的資料分析和計算方案逐漸開始基于雲上對象存儲和計算資源建構資料湖平台。Hudi是一個很好的增量存儲引擎,用開放的方式幫助使用者管理好資料湖的資料,加速使用者的計算和分析。”阿裡雲Data Lake Analytics - Lake Formation技術負責人李偉表示。

“Apache Hudi是Hopsworks Feature Store的關鍵子產品,它提供了版本控制、增量和原子更新以及時間旅行查詢等功能” Logical Clocks的CEO /聯合創始人Jim Dowling說。“Hudi畢業成為Apache頂級項目,也是開源資料湖從早期的資料沼澤化身到現代支援ACID且可用于企業的資料平台。”

Uber工程平台進階總監Jennifer Anderson表示:“Hudi畢業成為Apache頂級項目是Hudi社群衆多貢獻者共同努力的結果。Hudi對于Uber大資料基礎架構的性能和可伸縮性至關重要。我們很高興看到它獲得牽引力并實作了這一重要裡程碑。”

Vinoth Chandar補充道:“到目前為止,Hudi已經開始在業界中就資料倉庫和資料湖之間的巨大差距進行有意義的讨論。在Apache社群的幫助下我們連接配接起了其中一部分,但我們僅僅是從技術路線圖着手。我們歡迎每位開發者做出更多貢獻和合作以實作這一目标!”

可以通路 

https://github.com/apache/hudi

 給出你的star & fork.

在2020年6月7日至12日舉行的Virtual Berlin Buzzwords,MeetUps和其他活動中了解Apache Hudi。

可用性和監督

Apache Hudi是根據Apache License v2.0釋出的,并且由該項目的積極參與者自選團隊進行監督。項目管理委員會(PMC)指導項目的日常營運,包括社群開發和産品釋出。 有關下載下傳,文檔以及參與Apache Hudi的方式,請通路

http://hudi.apache.org/

https://twitter.com/apachehudi

關于Apache孵化器

Apache孵化器是希望成為Apache Software Foundation工作的一部分的項目和代碼庫的主要入口。外部組織和現有外部項目的所有代碼捐贈均通過孵化器進入ASF,以:1)確定所有捐贈均符合ASF法律标準; 2)建立符合我們指導原則的新社群。 所有新接受的項目都需要進行孵化,直到進一步的審查表明基礎架構,通信和決策過程已經以與其他成功的ASF項目一緻的方式穩定下來。 雖然孵化狀态不一定反映代碼的完整性或穩定性,但确實表明該項目尚未得到ASF的完全認可。有關更多資訊,請通路

http://incubator.apache.org/

關于Apache軟體基金會(ASF)

這家全志願者基金會成立于1999年,負責監督350多個領先的開源項目,其中包括Apache HTTP Server(世界上最受歡迎的Web伺服器軟體)。通過ASF稱為“ Apache之道”的精英流程,六大洲的813名個人會員和7800個送出者成功地合作開發了免費的企業級軟體,使全球數百萬使用者受益:數千種軟體解決方案在Apache下分發執照;社群積極參與ASF郵件清單,指導計劃以及ApacheCon(基金會的官方使用者會議,教育訓練和博覽會)。ASF是一家美國501(c)(3)慈善組織,由個人捐款和企業贊助商資助,其中包括Aetna,阿裡雲計算,亞馬遜AWS,Anonymous,百度,彭博社,Budget Direct,Capital One,CarGurus。 Cerner,Cloudera,Comcast,Facebook,Google,Handshake,Huawei,IBM,Inspur,Leaseweb,Microsoft,Pineapple Fund,Red Hat,Target,騰訊,Union Investment,Verizon Media和Workday。有關更多資訊,請通路

http://apache.org/ https://twitter.com/TheASF

©Apache軟體基金會。 “ Apache”,“ Hudi”,“ Apache Hudi”,“ Hadoop”,“ Apache Hadoop”和“ ApacheCon”是Apache軟體基金會在美國和/或其他國家的注冊商标或商标。所有其他品牌和商标均為其各自所有者的财産。

原文位址

https://www.cnblogs.com/leesf456/p/13049282.html