天天看點

初探未來十年,Cloudera 對待資料的全新方式

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

1977 年 9 月 5 日,旅行者一号發射升空,攜帶了一張鍍金銅質磁盤唱片記載着人類的聲音,科學,影像,音樂,思想和情感,駛入了浩瀚的宇宙。這是人類具有曆史意義的一次資料的時空遷移,将資料從地球發向宇宙深處,發送給未來的資料接收者。

時隔 50 多年後的今天,随着計算機技術,傳感器技術以及網際網路技術的發展,人類的資料總量已經達到了前所未有的規模。資料充斥着每個人的日常生活,對企業的每天都面臨着管理資料以及使用資料的挑戰。

随着資料規模的指數增長,存儲資料的載體,資料的處理技術,資料的使用的方式方法都在不斷的演進。企業使用者對資料價值的預期也不斷增加。是以企業使用者期望通過資料能快速帶來商業價值,同時對資料的安全,資料隐私與合規等要求越來越高。

根據哈佛的商業評論最近的一份的研究報告顯示,越來越多的企業在尋求企業級的成熟穩定的平台解決方案,在完成基本的資料攝取、資料整合批處理以及資料倉庫的功能的基礎上,還能面向業務人員提供即時互動的分析工具, 以及提供模組化、資料科學、機器學習,甚至是一些深度訓練的平台工具。

在今天的這篇文章裡,筆者想跟大家分享一下 Cloudera 這家企業,他們對于企業級資料管理有怎樣的深刻了解,在資料管理需求不斷更替的今天是如何推動開源和創新的。

2008 年, Cloudera 成立,此後便順應技術發展潮流,持續關注如何能讓使用者更快的從資料裡擷取價值。2019 年,Cloudera 提出了全新的對待資料的方式—— Cloudera Data Platform (以下簡稱 CDP),賦能企業 IT 進而應對新的商業挑戰。據了解,CDP 是世界上第一款企業資料雲平台産品。 同時,Cloudera 的開源的商業模式發展戰略以及新的開源許可模式,為 CDP 未來的發展提供原動力。

一眼十年,資料管理需求日新月異

以 2020 年為時間節點,回看過去十年以及展望未來十年,企業對資料的應用需求有很大的不同。

過去的十年裡,使用者需求主要集中在解決高效的存儲,并且能夠同時處理大規模資料。通過分布式的方式把資料分散在不同的伺服器上,以分而治之的方式來并發處理資料,避免網絡傳輸帶來的消耗和延遲等。Hadoop 在過去十年裡解決使用者需求的同時也在不斷自我演進。

Cloudera’s Distribution Including Apache Hadoop(CDH)作為衆多 Hadoop 分支的一種,得到了企業使用者廣泛的認可和使用。

未來十年裡,現有的資料管理使用架構與解決方案面臨新的諸多挑戰。例如龐大叢集規模部署時間長,企業實際應用中缺乏高效資料隐私與安全管理,資料災難恢複能力弱,多雲及混合雲跨雲管理繁瑣等。都需要在現有技術架構基礎上進行延展進而來應對這些新的挑戰。Cloudera 的全新 CDP 産品就是為了幫助使用者應對未來的新挑戰。

從 Cloudera 資料架構的疊代,看資料管理方式的轉變

Cloudera 在 Hadoop 基礎架構下發展出的商業版 CDH,是第一代架構的代表,主要關注在本地部署雲上集中同位的存儲和計算以及大型共享叢集;Cloudera 認為的第二代架構,主要關注在公有雲上的存儲與計算解耦和多叢集,例如 Amazon EMR;Cloudera 目前提出的平台方案 CDP 被認為是第三代架構,主要關注在多雲以及混合雲上的存儲與計算解耦,多租戶以及容器化的 SaaS 體驗。

去年年初,Cloudera 正式完成與 Hortonwork 的合并,新公司采用 Cloudera 品牌,新資料平台将 HDP(Hortonworks 資料平台)和 CDH(Cloudera Distribution Hadoop)的功能進行結合,加入安全治理堆棧,支援百分百開源,同時支援國際主流的五大公有雲平台。

此後,Cloudera 開始全面轉變為一家資料雲公司,緻力于建設四個方面的能力:

  • 在任何雲上面,不管是在公有雲、私有雲,混合雲,還是公有雲上的任何一朵雲,都可以來運作 Cloudera 的資料平台。
  • 提供全資料生命周期支援,不隻是提供 Hadoop 技術本身的支援,還提供在整個資料生命周期所有使用到的工具和平台,包括資料采集、IoT、資料分析、BI、資料倉庫、機器學習、資料科學等。
  • 在資料安全和治理上,提出了共享的資料體驗架構,實作存儲層和計算層的解耦,更好的管理源資料,同時實作資料存儲分離。對資料的安全、治理、血緣和審計方面,提供了單獨的 SDX 工具
  • 延續 100% 開源宗旨,保證産品開源開放。

以上四方面能力最終轉化為 Cloudera 的雲資料平台軟體即為 CDP 産品。

CDP 可以為企業從資料戰略上提供完整的服務,其多雲和混合雲的統一平台解決方案,可以實作快速部署,并靈活适用于企業各自的雲使用政策,節約成本同時實作快速上線。全資料生命周期的支援可以讓企業更加高效的使用資料和挖掘資料,提升企業資料價值。同時資料安全治理為分布各種雲上的資料提供有效管理。

是以,現在的 CDP,既能提供多雲與混合雲的統一平台解決方案,又可以支援企業全資料生命周期中提升資料價值,還能實作企業雲上的資料安全治理。

管理多雲、公有雲、私有雲與混合雲的新理念

企業在使用雲的政策上,通常會根據其業務特點選擇公有雲或私有雲,有的企業也會選擇公有雲 + 私有雲,并建構混合雲環境。Cloudera 在多雲以及混合雲的使用方面提出了很多新的理念和實踐。

1、私有雲對象存儲标準

對公有雲來說,原生雲服務商建立了相關的對象存儲标準,但私有雲目前确沒有對應的标準。Cloudera 通過主推 Ozone 為私有雲提供未來的對象存儲标準。

Ozone 是 Cloudera 在 2019 年建立并引入的一個 Hadoop 子項目,是一個開源的對象存儲項目。引入 Ozone 是為了能夠徹底解決 HDFS 檔案數量的限制的弱點。目前很多企業使用者在部署大規模叢集的時候,都需要使用 HDFS 聯邦,而 HDFS 聯邦在實際應用中也存在各種問題,并不是最佳的解決方案,随着叢集規模不斷的增長,局限性也越發的明顯。

Cloudera 在不斷研發一些底層的新的存儲技術,計劃在今後幾年能夠替換 HDFS,為企業使用者部署大規模叢集提供更加優化的解決方案。

2、資料存儲與資料處理的內建

結合 CDP 存儲跟計算分離的概念,Cloudera 将 Ozone 定位為私有雲的資料存儲引擎。Ozone 可以被了解為私有雲裡面的“S3”,所有資料都是存放在 Ozone 裡面,而分離的計算叢集都是通過源資料,網絡遠端處理。未來規劃中,Hive、Spark、Impala 等一系列的處理引擎都會跟 Ozone 內建。

同時私有雲版上跟公有雲版進行映射,進而使存儲的接口和計算引擎都可以在 Ozone 上面可以實施。由此不但可以滿足使用者使用對象存儲接口的需求,而且可以靈活的去配置設定計算資源,給開發帶來很多好處。

3、混合雲體驗

從不同雲的使用上講,CDP 提供公有雲,Data Center,和私有雲版本,提供體驗相同的各種資料服務。例如流式處理,Hive 批量處理,Spark 和即時查詢等。讓使用者在私有雲環境裡面,可以獲得跟公有雲一樣的體驗。

使用者使用 CDP 在自己搭建部署的雲和使用 CDP 在原生雲服務商的公有雲時,CDP 都會提供統一的使用者界面和相同的使用的方式。避免了使用者重複學習,同時大大節約了運維叢集的時間。

開源商業模式及 CDP 發展戰略

開源是整個軟體技術創新的一個潮流,幾乎所有最新的技術都是以開源的形式在傳播和推廣。同時開源會成就技術的多樣化,一個百花齊放社群的文化可以持續不斷的發展。是以,Cloudera 會借助開源強大的創新能力,不斷提升對使用者的服務。

Cloudera 曾公開表示,作為一家開源公司,Cloudera 會延續 100% 開源的宗旨,并保證産品的持續開源開放。Cloudera 的新的授權許可方式,整合了 Hortonworks 和 Cloudera 各自在之前使用的授權許可方式,并在合并 Hortonworks 之後做出了一些新的改變:

  • 在授權許可方面,Cloudera 所有産品均将采用 OSI 準許的許可證,即 Apache 軟體許可證 (ASL) 或 Affero 通用公共許可證 (AGPL)。 在此基礎上,Cloudera 貢獻代碼的由 Apache 軟體基金會托管的所有開源項目将繼續由 ASF 監管。同時,Cloudera 的代碼貢獻模式沒有改變,第三方項目将繼續采用 upstream first 方式。第三方項目代碼庫的公開源僅保持在 upstream。
  • Cloudera 将采用類似紅帽的開源模式,市場及全球企業使用者已接受該模式。從 2019 年 11 月開始,産品的二進制檔案都将置于付費專區需訂閱後才能通路。将二進制檔案置于付費專區的原因是它為廠商提供了一定程度的保護。二進制檔案包含 Cloudera 特定的知識産權,将許多分散的開源項目整合到企業級的功能系統中。
  • CDP 會對 Hadoop 開源元件進行精選與整合,結合新建立的開源項目,提供跨雲服務,全資料生命周期支援,資料安全和治理等,滿足企業級使用者的需求,為企業提供完整的雲資料服務。

Cloudera 對以上新的開源許可政策與其業務模型進行了有機的結合。在最終制定政策方向之前,詳細的與客戶,行業專家,律師,同行公司和員工進行了讨論與咨詢。采用目前類似紅帽開源模式,是更為友好的開源軟體企業化商業模式服務于使用者,突出了軟體産品的“面向服務”本質,Cloudera 的軟體産品按訂閱方式提供,消除了購買軟體的麻煩。

購買訂閱服務與購買私有軟體許可相比,訂閱提供使用者所需的一切,不需要使用者端通路許可,不需要持續為更新投入成本,沒有服務支援限制以及隐藏費用。購買訂閱的使用者可以獲得諸多價值,例如:

  • 訂閱使使用者可以持續通路 Cloudera 的商業軟體,獲得更新與維護,包括所有安全更新和漏洞修複。
  • 訂閱不依賴于特定的版本或架構,讓使用者無需任何代價即可更新系統,易于基于雲的伺服器上輕松部署。
  • 購買訂閱可以獲得 Cloudera 的全球服務支援,解決使用者的後顧之憂。服務支援與使用者合作過程中,也打開了使用者與 Cloudera 研發團隊的通道,在與使用者充分的溝通過程中,研發團隊也能更好的根據使用者的回報研發更加貼近使用者需求的産品。
  • Cloudera 擁有 700 多個研發工程師,其中大概 300 名左右的 committers,同時其系列産品在全球幾千個大型客戶經過廣泛的驗證,使用者之間的普遍問題可以得到快速的解決。是以企業使用者訂閱 Cloudera 的企業版産品,不需要建立各自的技術團隊進行平台底層研發和日常維護,讓企業最大限度的節省平台成本投入。
  • 使用者訂閱本質上是購買 Cloudera 所提供的服務,使使用者能夠釋放出維護軟體版本所需的大量寶貴的工程師資源,也不必擔心轉換平台供應商所帶來的成本投入。令使用者能将更多資源投入在能産生更多收入的應用和産品服務上。
  • Cloudera 開發了許多開源項目,這些項目已經成為行業标準,但是沒有一家公司可以成為創新唯一來源。通過投資 Spark、Kubernetes 和 Kafka 等開源項目,通過訂閱服務,使用者可以獲得可持續發展的長期架構。

Cloudera 通過以上開放包容的商業政策,最大限度的發揮開源社群創新的原動力,真誠的服務于廣大使用者。

結語

在應對企業使用者新需求方面,CDP 通過簡化操作,減少了在整個企業機構内上線新用例的時間。同時使用機器學習來智能地自動調整工作負載,以便更經濟有效地使用雲基礎架構。如此一來,CDP 可以管理任何環境中的資料,包括多種公共雲、裸機、私有雲和混合雲環境。

此外,借助共享資料體驗技術(SDX)、CDP 中的安全和治理功能,IT 人員可以放心地在任何地方提供針對資料運作的安全分析。

綜上,筆者系統介紹了 Cloudera 的內建資料平台解決方案,它的特點是讓企業可以更加靈活的組建符合各自需求的雲服務,最終通過使用 CDP 進行統一管理。同時,其資料隐私以及安全管理方面的設計,可以幫助企業保證日常的安全營運。此外,Cloudera 在堅持開源的基礎上,持續探索關于開源生态、商業模式的更多可能性。

未來,我們期待可以看到 Cloudera 創造更多的産品模式和服務,為企業資料管理帶來更多本質上的進化。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/zhibo

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-04-22

本文作者:郭鋒

本文來自:“

InfoQ

”,了解相關資訊可以關注“

繼續閱讀