天天看點

DKHadoop大資料平台架構詳解

大資料的時代已經來了,資訊的爆炸式增長使得越來越多的行業面臨這大量資料需要存儲和分析的挑戰。Hadoop作為一個開源的分布式并行處理平台,以其高拓展、高效率、高可靠等優點越來越受到歡迎。這同時也帶動了hadoop商業版的發行。這裡就通過大快DKhadoop為大家詳細介紹一下hadoop大資料平台架構内容。

目前國内的商業發行版hadoop除了大快DKhadoop以外還有像華為雲等。雖然發行方不同,但在平台架構上相似,這裡就以我比較熟悉的dkhadoop來介紹。

DKHadoop大資料平台架構詳解

1、大快Dkhadoop,可以說是內建了整個HADOOP生态系統的全部元件,并對其進行了深度優化,重新編譯為一個完整的更高性能的大資料通用計算平台,實作了各部件的有機協調。是以DKH相比開源的大資料平台,在計算性能上有了非常高的提升。這一點也是個人覺得dkhadoop比我之前使用的另外一個商業發行版的要好的,國内的大部分商業發行版hadoop可以說都是二次包裝,dkhadoop做的好的就是敢在原生态的基礎上進行開發。

2、大快DKhadoop中間件技術把大資料叢集配置簡化成三種節點,這樣不僅簡化了叢集的管理運維,還增強了叢集的可用性和穩定性。Dkhadoop中間件內建了apache的很多元件包含了從檔案、SQL、日志、消息到爬蟲和流資料以及異構資料的支援;內建了大快的壓縮算法,和資料同步分發技術,實作了資料的導入和減少調動的同時實作,對于有實時資料要求的項目具有不可替代的技術優勢。

3、大快DKhadoop商業發行版還是保持了開源系統的優點的,可以與開源系統100%相容。對于那些基于開源平台開發的大資料應用并不需要經過改動同樣可以在dkhadoop上高效運作。

4、DKhadoop一體化開發架構提供了大資料、搜尋、自然語言處理和人工智能開發中常用的二十多個類,總計一百餘種方法,實作了開發效率的大幅提升。DK.HADOOP整合內建了NOSQL資料庫,簡化了檔案系統與非關系資料庫之間的程式設計;DK.HADOOP改進了叢集同步系統,使得HADOOP的資料處理更加高效。

5、DKhadoop的SQL版本,還提供了分布式MySQL的內建,傳統的資訊系統,可無縫的實作面向大資料和分布式的跨越。

6、ES:快遞DKhadoop的搜尋系統是在開源ES系統上二次開發的,支援完成的全文搜尋。整合了對中文搜尋的有效支援以及對大快資料同步技術的支援後的高性能版本,DK.ES是DKH的核心元件之一,僅随DKH內建整合了對中文搜尋的有效支援以及對大快資料同步技術的支援後的高性能版本,DK.ES是DKhadoop的核心元件之一。

7、漢語言處理元件:大快的漢語言處理是目前國内使用率最高的開源自然語言處理開發包。

簡單的就介紹這些了吧,想要進一步了解的可以搜尋查詢下或者下載下傳一下dkhadoop學習版本了解。以下是關于dkhadoop版本的問題:

DKH标準版   DKH-分布式SQL版   DK.HADOOP發行版

DKH标準版有三個不同的子版本:用于開發調試的單機版;支援三節點的學習版;支援5節點以上的标準伺服器版

DKH-分布式SQL版有兩個子版本:學習版、伺服器版