天天看點

大資料計算引擎 EasyMR:擁抱開源,引領技術創新

作者:袋鼠雲數棧

身處數字經濟時代,随着大資料應用越來越廣泛,越來越多的企業群組織開始關注大資料基礎平台的建設和營運。在認識到其的重要性之後,如何具體着手搭建或采購大資料基礎平台成為下一步需要解決的問題。

在大資料基礎平台中,大資料元件是非常重要的一部分,包括資料存儲、資料處理、資料分析、資料可視化等。在選擇大資料元件時,我們常常在閉源元件和開源元件選擇中反複糾結。

本文将從優勢、劣勢兩個次元分析開源元件、閉源元件對大資料基礎平台建設的影響,并結合袋鼠雲自研的大資料計算引擎 EasyMR 的實踐經曆進行分享。

開源元件

在大資料領域,開源元件已經成為了建構大資料平台的重要基石。例如 Hadoop、Spark、Hive、HBase、Kafka、Storm、Flink 等開源軟體已經成為了大資料處理和分析的主要工具。

這些開源元件不僅提供了高效、可擴充、可靠的大資料處理和存儲能力,而且還促進了生态系統的發展,形成了龐大的開發社群和豐富的第三方工具及應用程式。

優勢

● 免費

開源元件一般都是免費的,其源代碼是公開的,任何人都可以下載下傳、使用、修改和分發,這将極大降低企業的開發和建設成本。

● 靈活性

由于源代碼是公開的,企業可以對其進行自定義修改,以适應自身業務需求,增強了靈活性。

● 可擴充性

開源元件通常具有良好的擴充性,可以很容易地內建和更新到其他開源元件。

● 社群支援

開源元件一般擁有龐大的社群,社群成員均可以貢獻代碼,提供解決方案和支援。這意味着在使用過程中遇到問題,可以得到快速的幫助和解決方案。

開源軟體的開發和維護通常由廣泛的社群貢獻提供,進而形成共同的技術标準和最佳實踐,這有助于提高軟體品質和安全性,并為企業提供更好的互操作性和可移植性。

劣勢

● 依賴社群

開源元件的發展取決于社群的貢獻,如果社群貢獻較少或者停滞不前,開源元件可能會面臨更新緩慢或停止維護的問題。

● 安全性

開源元件的源代碼是公開的,這使得黑客和惡意使用者可以更輕松地發現和利用其中的漏洞,企業在使用開源元件時,需要進行必要的安全檢查和漏洞修複。

商業閉源元件

例如 MapR 公司的 MapR-DB、MapR-ES,IBM 公司的 IBM Streams,Cloudera 公司的 Cloudera Manager、Cloudera Navigator、Cloudera Data Science Workbench 等都是比較主流的大資料閉源元件。

優勢

● 技術支援

閉源元件通常由廠商提供技術支援,可以為企業提供更為專業、快速的支援,保障企業的業務穩定性。

● 安全性

商業閉源元件的源代碼不公開,使得黑客和惡意使用者難以發現和利用其中的漏洞,企業在使用閉源元件時,可以減少安全方面的擔憂。

● 定制性

商業閉源元件可以提供定制化的服務,以滿足企業的個性化需求。

劣勢

● 依賴廠商

商業閉源元件的維護和發展需要依賴廠商的支援,其更新疊代速度比較依賴企業的研發投入,如果廠商出現問題或者停止支援,企業可能需要更換整個元件。

● 價格高昂

商業閉源元件通常需要購買許可證或者按使用量收費,這會極大增加企業的成本。

● 資料生産效率低

商業閉源元件通常會對使用者的自由度和可控性産生限制,如禁止對源代碼進行修改等要求。

開源 or 閉源?

開源元件 or 閉源元件,企業究竟應該如何選擇?

對比來看,對于需要靈活性和可定制性較高的企業來說,開源元件更為适合;而對于更為注重技術支援和安全性的企業來說,商業閉源元件則更具有優勢。

開源元件和商業閉源元件各有優缺點,注定了它們擁有各自的市場需求。但基于 DB-Engines 全球資料管理系統排名來看,開源流行度正在逐年上升,2021年1月開源産品首次超過商業資料庫。

大資料計算引擎 EasyMR:擁抱開源,引領技術創新

開源軟體可以降低企業的成本,提高軟體産品的通用性,同時促進技術創新和生态系統的發展。

開源軟體相比閉源軟體的優勢主要有兩點,一是衆人拾材火焰高,通過開源社群的溝通交流,能夠更快提高代碼品質;二是開源大大提高了軟體的推廣效率。

可以說,大資料基礎平台元件開源,是目前和未來發展的趨勢。

EasyMR 的實踐之路

袋鼠雲大資料計算引擎 EasyMR,作為袋鼠雲自研的大資料基礎平台,其大資料元件100%基于開源 Hadoop,完全相容Apache開源生态,與開源社群同步疊代,時刻保持技術的領先性。

在 CDH、HDP 社群版不再更新,國産化信創政策大背景下,袋鼠雲支援 CDH/HDP 平滑遷移 EasyMR,助力企業快速實作國産化大資料基礎平台的搭建與遷移,真正實作對業務側不造成任何影響。

袋鼠雲作為國内領先的數字化基礎軟體與應用服務商,十分重視強化産品的基礎能力和技術能力,在開源技術的基礎上,EasyMR 對 Spark、Flink、Trino、Iceberg 等多個大資料核心元件進行了功能及性能增強。具體優化見下圖:

大資料計算引擎 EasyMR:擁抱開源,引領技術創新

僅在2022年袋鼠雲技術同學就完成了上百次的 commit,為 Hadoop 生态的技術發展貢獻了屬于袋鼠雲的力量。

贈人玫瑰手有餘香,回饋社群的同時袋鼠雲實作了對整個 Hadoop 體系核心代碼的完全自主掌握,對于 EasyMR 大資料平台遷移、大資料元件維保、客戶教育訓練做到了100%自主可控。

國際環境嚴峻複雜,袋鼠雲深知隻有實作關鍵技術的自主化、國産化,才能真正實作技術創新,攻克“卡脖子”難題。

擁抱開源不止于此

ChunJun 作為袋鼠雲重磅打造的批流一體的資料內建大資料開源項目,在袋鼠雲及衆多開源技術愛好者的協作努力下,目前已進行了5200+commit,擁有3600+star,逐漸成為主流的資料內建架構。

今年,EasyMR 将內建 ChunJun 項目,為使用者帶來更加穩定、高效、易用的批流一體的資料內建解決方案。

大資料計算引擎 EasyMR:擁抱開源,引領技術創新

基于 EasyMR 的運維管理平台 EasyManager,袋鼠雲成功開源一站式全自動化全生命周期運維管家 ChengYing。從開放式統一監控,到定義标準化部署能力,而後引入 Prometheus/Grafana/ 自研 dt-alert 元件,完成統一監控2.0的功能優化,再到多叢集管理,幫助企業快速搭建自己的運維管理平台。

大資料計算引擎 EasyMR:擁抱開源,引領技術創新

EasyMR 的最新版運維管理平台 EasyManager 中的前端元件及樣式是基于袋鼠雲開源項目 ant-design 的 React UI 元件庫、樣式庫進行打造。袋鼠雲 dt- React 元件為使用者提供更豐富的元件庫,可以更好的管理元件,減少代碼備援提高前端開發。具體内容将在之後的文章中進行詳解。

袋鼠雲秉承着開源共享的理念,受益開源的同時積極擁抱世界、擁抱開源,期待與更多開源愛好者一起共建優秀開源産品。

同時,袋鼠雲始終堅持自主研發和國産化路線,在技術創新上不遺餘力,為企業IT高效、平穩運作保駕護航。

《資料治理行業實踐白皮書》下載下傳位址:https://fs80.cn/380a4b

想了解或咨詢更多有關袋鼠雲大資料産品、行業解決方案、客戶案例的朋友,浏覽袋鼠雲官網:https://www.dtstack.com/?src=sztth

開源項目位址:https://github.com/DTStack

繼續閱讀