hadoop架構結構學習詳述

2018-09-25 23:50:00

hadoop架構結構學習詳述

近年，随着網際網路的發展特别是移動網際網路的發展，資料的增長呈現出一種爆炸式的成長勢頭。單是谷歌的爬蟲程式每天下載下傳的網頁超過1億個（2000年資料，）資料的爆炸式增長直接推動了海量資料處理技術的發展。谷歌公司提出的大表、分布式檔案系統和分布式計算的三大技術構架，解決了海量資料處理的問題。谷歌公司随即将設計思路開源，發表了具有劃時代意義的三篇論文，很快根據谷歌設計思路的開源架構就出現了，就是如今非常火爆的hadoop、Maperduce和許多Nosql系統。這三大技術也是整個大資料技術的核心基礎。

目前國内的hadoop商業發行版也是比較多，這些hadoop商業版大部分都是由國外發行的，純國産的發行版不是很多，比如DKhadoop，可以說是目前國内自主做hadoop商業版比較好的了。下面就以大快搜尋DKhadoop為例來給大家介紹一下hadoop架構結構！

圖示：DKhadoop技術技術架構圖

hadoop架構結構核心：

hadoop的架構結構最核心的設計就是：HDFS和MapReduce。HDFS為海量的資料提供了存儲，MapReduce為海量的資料提供了計算。

大資料一體化開發架構：

大資料的應用開發過于偏向底層，設計技術面非常廣泛，學習的難度自然要大的很多。對于新手入門更是難上加難。DKhadoop則是大快搜尋将一系列技術架構在底層進行了重新封裝。把大資料開發中的一些通用的，重複使用的基礎代碼、算法封裝為類庫，降低了大俗局的學習門檻，降低開發難度。

DKhadoop架構結構構成子產品：

我們以DKhadoop發行版為例：

1、架構由：資料源與SQL引擎、資料采集（自定義爬蟲）子產品、資料處理子產品、機器學習算法、自然語言處理子產品、搜尋引擎子產品，六部分組成。

2、大快的大資料通用計算平台（DKH），已經內建相同版本号的開發架構的全部元件。如果在開源大資料架構上部署大快的開發架構，需要平台的元件支援如下：

（1）資料源與SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka

（2）資料采集：DK.hadoop

（3）資料處理子產品：DK.Hadoop、spark、storm、hive

（4）機器學習和AI：DK.Hadoop、spark

（5）NLP子產品：上傳伺服器端JAR包，直接支援

（6）搜尋引擎子產品：不獨立釋出

Dkhadoop是大快深度整合，重新編譯後的HADOOP發行版，可單獨釋出。獨立部署FreeRCH（大快大資料一體化開發架構）時，必需的元件。DK.HADOOP整合內建了NOSQL資料庫，簡化了檔案系統與非關系資料庫之間的程式設計；DK.HADOOP改進了叢集同步系統，使得HADOOP的資料處理更加高效。

關于hadoop架構結構暫且簡單介紹這些，感興趣的朋友可以找一下大快搜尋的DKhadoop試一下。

hadoop架構結構學習詳述

繼續閱讀

Storm編譯打包過程中遇到的一些問題及解決方法

關于SQL語言

SQL語言基礎：常用的資料查詢語句

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

neo4j之cypher使用文檔

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

sqlServer根據經緯查距離

win10本地scala和spark安裝安裝scala安裝spark