天天看點

詳解大資料核心技術

首先大資料技術的體系龐大且複雜,基礎的技術包含資料的采集、資料預處理、分布式存儲、NoSQL資料庫、資料倉庫、機器學習、并行計算、可視化等各種技術範疇和不同的技術層面。首先給出一個通用化的大資料處理架構,主要分為下面幾個方面:資料采集與預處理、資料存儲、資料清洗、資料查詢分析和資料可視化。

詳解大資料核心技術

一、資料采集與預處理

對于各種來源的資料,包括移動網際網路資料、社交網絡的資料等,這些結構化和非結構化的海量資料是零散的,也就是所謂的資料孤島,此時的這些資料并沒有什麼意義,資料采集就是将這些資料寫入資料倉庫中,把零散的資料整合在一起,對這些資料綜合起來進行分析。資料采集包括檔案日志的采集、資料庫日志的采集、關系型資料庫的接入和應用程式的接入等。在資料量比較小的時候,可以寫個定時的腳本将日志寫入存儲系統,但随着資料量的增長,這些方法無法提供資料安全保障,并且運維困難,需要更強壯的解決方案。如果你對大資料開發感興趣,想系統學習大資料的話,可以加入大資料技術學習交流扣扣群:4583+數字45782,歡迎添加,私信管理者,了解課程介紹,擷取學習資源。

FlumeNG作為實時日志收集系統,支援在日志系統中定制各類資料發送方,用于收集資料,同時,對資料進行簡單處理,并寫到各種資料接收方(比如文本,HDFS,Hbase等)。FlumeNG采用的是三層架構:Agent層,Collector層和Store層,每一層均可水準拓展。其中Agent包含Source,Channel和Sink,source用來消費(收集)資料源到channel元件中,channel作為中間臨時存儲,儲存所有source的元件資訊,sink從channel中讀取資料,讀取成功之後會删除channel中的資訊。

NDC,NeteaseDataCanal,直譯為網易資料運河系統,是網易針對結構化資料庫的資料實時遷移、同步和訂閱的平台化解決方案。它整合了網易過去在資料傳輸領域的各種工具和經驗,将單機資料庫、分布式資料庫、OLAP系統以及下遊應用通過資料鍊路串在一起。除了保障高效的資料傳輸外,NDC的設計遵循了單元化和平台化的設計哲學。

Logstash是開源的伺服器端資料處理管道,能夠同時從多個來源采集資料、轉換資料,然後将資料發送到您最喜歡的“存儲庫”中。一般常用的存儲庫是Elasticsearch。Logstash支援各種輸入選擇,可以在同一時間從衆多常用的資料來源捕捉事件,能夠以連續的流式傳輸方式,輕松地從您的日志、名額、Web應用、資料存儲以及各種AWS服務采集資料。

Sqoop,用來将關系型資料庫和Hadoop中的資料進行互相轉移的工具,可以将一個關系型資料庫(例如Mysql、Oracle)中的資料導入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的資料導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop啟用了一個MapReduce作業(極其容錯的分布式并行計算)來執行任務。Sqoop的另一大優勢是其傳輸大量結構化或半結構化資料的過程是完全自動化的。

流式計算是行業研究的一個熱點,流式計算對多個高吞吐量的資料源進行實時的清洗、聚合和分析,可以對存在于社交網站、新聞等的資料資訊流進行快速的處理并回報,目前大資料流分析工具有很多,比如開源的strom,sparkstreaming等。

Strom叢集結構是有一個主節點(nimbus)和多個工作節點(supervisor)組成的主從結構,主節點通過配置靜态指定或者在運作時動态選舉,nimbus與supervisor都是Storm提供的背景守護程序,之間的通信是結合Zookeeper的狀态變更通知和監控通知來處理。nimbus程序的主要職責是管理、協調和監控叢集上運作的topology(包括topology的釋出、任務指派、事件處理時重新指派任務等)。supervisor程序等待nimbus配置設定任務後生成并監控worker(jvm程序)執行任務。supervisor與worker運作在不同的jvm上,如果由supervisor啟動的某個worker因為錯誤異常退出(或被kill掉),supervisor會嘗試重新生成新的worker程序。

當使用上遊子產品的資料進行計算、統計、分析時,就可以使用消息系統,尤其是分布式消息系統。Kafka使用Scala進行編寫,是一種分布式的、基于釋出/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及将資料實時備份到另一個資料中心,Kafka可以有許多的生産者和消費者分享多個主題,将消息以topic為機關進行歸納;Kafka釋出消息的程式稱為producer,也叫生産者,預訂topics并消費消息的程式稱為consumer,也叫消費者;當Kafka以叢集的方式運作時,可以由一個服務或者多個服務組成,每個服務叫做一個broker,運作過程中producer通過網絡将消息發送到Kafka叢集,叢集向消費者提供消息。Kafka通過Zookeeper管理叢集配置,選舉leader,以及在ConsumerGroup發生變化時進行rebalance。Producer使用push模式将消息釋出到broker,Consumer使用pull模式從broker訂閱并消費消息。Kafka可以和Flume一起工作,如果需要将流式資料從Kafka轉移到hadoop,可以使用Flume代理agent,将Kafka當做一個來源source,這樣可以從Kafka讀取資料到Hadoop。

Zookeeper是一個分布式的,開放源碼的分布式應用程式協調服務,提供資料同步服務。它的作用主要有配置管理、名字服務、分布式鎖和叢集管理。配置管理指的是在一個地方修改了配置,那麼對這個地方的配置感興趣的所有的都可以獲得變更,省去了手動拷貝配置的繁瑣,還很好的保證了資料的可靠和一緻性,同時它可以通過名字來擷取資源或者服務的位址等資訊,可以監控叢集中機器的變化,實作了類似于心跳機制的功能。

二、資料存儲

Hadoop作為一個開源的架構,專為離線和大規模資料分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用于資料存儲。

HBase,是一個分布式的、面向列的開源資料庫,可以認為是hdfs的封裝,本質是資料存儲、NoSQL資料庫。HBase是一種Key/Value系統,部署在hdfs上,克服了hdfs在随機讀寫這個方面的缺點,與hadoop一樣,Hbase目标主要依靠橫向擴充,通過不斷增加廉價的商用伺服器,來增加計算和存儲能力。

Phoenix,相當于一個Java中間件,幫助開發工程師能夠像使用JDBC通路關系型資料庫一樣通路NoSQL資料庫HBase。

Yarn是一種Hadoop資料總管,可為上層應用提供統一的資源管理和排程,它的引入為叢集在使用率、資源統一管理和資料共享等方面帶來了巨大好處。Yarn由下面的幾大元件構成:一個全局的資料總管ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運作。

Mesos是一款開源的叢集管理軟體,支援Hadoop、ElasticSearch、Spark、Storm和Kafka等應用架構。

Redis是一種速度非常快的非關系資料庫,可以存儲鍵與5種不同類型的值之間的映射,可以将存儲在記憶體的鍵值對資料持久化到硬碟中,使用複制特性來擴充性能,還可以使用用戶端分片來擴充寫性能。

Atlas是一個位于應用程式與MySQL之間的中間件。在後端DB看來,Atlas相當于連接配接它的用戶端,在前端應用看來,Atlas相當于一個DB。Atlas作為服務端與應用程式通訊,它實作了MySQL的用戶端和服務端協定,同時作為用戶端與MySQL通訊。它對應用程式屏蔽了DB的細節,同時為了降低MySQL負擔,它還維護了連接配接池。Atlas啟動後會建立多個線程,其中一個為主線程,其餘為工作線程。主線程負責監聽所有的用戶端連接配接請求,工作線程隻監聽主線程的指令請求。

Kudu是圍繞Hadoop生态圈建立的存儲引擎,Kudu擁有和Hadoop生态圈共同的設計理念,它運作在普通的伺服器上、可分布式規模化部署、并且滿足工業界的高可用要求。其設計理念為fastanalyticsonfastdata。作為一個開源的存儲引擎,可以同時提供低延遲的随機讀寫和高效的資料分析能力。Kudu不但提供了行級的插入、更新、删除API,同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲,既可以進行随機讀寫,也可以滿足資料分析的要求。Kudu的應用場景很廣泛,比如可以進行實時的資料分析,用于資料可能會存在變化的時序資料應用等。

在資料存儲過程中,涉及到的資料表都是成千上百列,包含各種複雜的Query,推薦使用列式存儲方法,比如parquent,ORC等對資料進行壓縮。Parquet可以支援靈活的壓縮選項,顯著減少磁盤上的存儲。

三、資料清洗

MapReduce作為Hadoop的查詢引擎,用于大規模資料集的并行計算,”Map(映射)”和”Reduce(歸約)”,是它的主要思想。它極大的友善了程式設計人員在不會分布式并行程式設計的情況下,将自己的程式運作在分布式系統中。

随着業務資料量的增多,需要進行訓練和清洗的資料會變得越來越複雜,這個時候就需要任務排程系統,比如oozie或者azkaban,對關鍵任務進行排程和監控。

Oozie是用于Hadoop平台的一種工作流排程引擎,提供了RESTfulAPI接口來接受使用者的送出請求(送出工作流作業),當送出了workflow後,由工作流引擎負責workflow的執行以及狀态的轉換。使用者在HDFS上部署好作業(MR作業),然後向Oozie送出Workflow,Oozie以異步方式将作業(MR作業)送出給Hadoop。這也是為什麼當調用Oozie的RESTful接口送出作業之後能立即傳回一個JobId的原因,使用者程式不必等待作業執行完成(因為有些大作業可能會執行很久(幾個小時甚至幾天))。Oozie在背景以異步方式,再将workflow對應的Action送出給hadoop執行。

Azkaban也是一種工作流的控制引擎,可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成:RelationalDatabase,AzkabanWebServer和AzkabanExecutorServer。azkaban将大多數的狀态資訊都儲存在MySQL中,AzkabanWebServer提供了WebUI,是azkaban主要的管理者,包括project的管理、認證、排程以及對工作流執行過程中的監控等;AzkabanExecutorServer用來排程工作流和任務,記錄工作流或者任務的日志。

流計算任務的處理平台Sloth,是網易首個自研流計算平台,旨在解決公司内各産品日益增長的流計算需求。作為一個計算服務平台,其特點是易用、實時、可靠,為使用者節省技術方面(開發、運維)的投入,幫助使用者專注于解決産品本身的流計算需求。

四、資料查詢分析

Hive的核心工作就是把SQL語句翻譯成MR程式,可以将結構化的資料映射為一張資料庫表,并提供HQL(HiveSQL)查詢功能。Hive本身不存儲和計算資料,它完全依賴于HDFS和MapReduce。可以将Hive了解為一個用戶端工具,将SQL操作轉換為相應的MapReducejobs,然後在hadoop上面運作。Hive支援标準的SQL文法,免去了使用者編寫MapReduce程式的過程,它的出現可以讓那些精通SQL技能、但是不熟悉MapReduce、程式設計能力較弱與不擅長Java語言的使用者能夠在HDFS大規模資料集上很友善地利用SQL語言查詢、彙總、分析資料。

Hive是為大資料批量處理而生的,Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大資料處理上的瓶頸。Hive将執行計劃分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一個Query會被編譯成多輪MapReduce,則會有更多的寫中間結果。由于MapReduce執行架構本身的特點,過多的中間過程會增加整個Query的執行時間。在Hive的運作過程中,使用者隻需要建立表,導入資料,編寫SQL分析語句即可。剩下的過程由Hive架構自動的完成。

Impala是對Hive的一個補充,可以實作高效的SQL查詢。使用Impala來實作SQLonHadoop,用來進行大資料實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大資料,同時資料也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapReduce批處理,而是通過使用與商用并行關系資料庫中類似的分布式查詢引擎(由QueryPlanner、QueryCoordinator和QueryExecEngine三部分組成),可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢資料,進而大大降低了延遲。Impala将整個查詢分成一執行計劃樹,而不是一連串的MapReduce任務,相比Hive沒了MapReduce啟動時間。

Hive适合于長時間的批處理查詢分析,而Impala适合于實時互動式SQL查詢,Impala給資料人員提供了快速實驗,驗證想法的大資料分析工具,可以先使用Hive進行資料轉換處理,之後使用Impala在Hive處理好後的資料集上進行快速的資料分析。總的來說:Impala把執行計劃表現為一棵完整的執行計劃樹,可以更自然地分發執行計劃到各個Impalad執行查詢,而不用像Hive那樣把它組合成管道型的map->reduce模式,以此保證Impala有更好的并發性和避免不必要的中間sort與shuffle。但是Impala不支援UDF,能處理的問題有一定的限制。

Spark擁有HadoopMapReduce所具有的特點,它将Job中間輸出結果儲存在記憶體中,進而不需要讀取HDFS。Spark啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化疊代工作負載。Spark是在Scala語言中實作的,它将Scala用作其應用程式架構。與Hadoop不同,Spark和Scala能夠緊密內建,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式資料集。

Nutch是一個開源Java實作的搜尋引擎。它提供了我們運作自己的搜尋引擎所需的全部工具,包括全文搜尋和Web爬蟲。

Solr用Java編寫、運作在Servlet容器(如ApacheTomcat或Jetty)的一個獨立的企業級搜尋應用的全文搜尋伺服器。它對外提供類似于Web-service的API接口,使用者可以通過http請求,向搜尋引擎伺服器送出一定格式的XML檔案,生成索引;也可以通過HttpGet操作提出查找請求,并得到XML格式的傳回結果。

Elasticsearch是一個開源的全文搜尋引擎,基于Lucene的搜尋伺服器,可以快速的儲存、搜尋和分析海量的資料。設計用于雲計算中,能夠達到實時搜尋,穩定,可靠,快速,安裝使用友善。

還涉及到一些機器學習語言,比如,Mahout主要目标是建立一些可伸縮的機器學習算法,供開發人員在Apache的許可下免費使用;深度學習架構Caffe以及使用資料流圖進行數值計算的開源軟體庫TensorFlow等,常用的機器學習算法比如,貝葉斯、邏輯回歸、決策樹、神經網絡、協同過濾等。

五、資料可視化

對接一些BI平台,将分析得到的資料進行可視化,用于指導決策服務。主流的BI平台比如,國外的靈活BITableau、Qlikview、PowrerBI等,國内的SmallBI和新興的網易有數等。

在上面的每一個階段,保障資料的安全是不可忽視的問題。

基于網絡身份認證的協定Kerberos,用來在非安全網絡中,對個人通信以安全的手段進行身份認證,它允許某實體在非安全網絡環境下通信,向另一個實體以一種安全的方式證明自己的身份。

控制權限的ranger是一個Hadoop叢集權限架構,提供操作、監控、管理複雜的資料權限,它提供一個集中的管理機制,管理基于yarn的Hadoop生态圈的所有資料權限。可以對Hadoop生态的元件如Hive,Hbase進行細粒度的資料通路控制。通過操作Ranger控制台,管理者可以輕松的通過配置政策來控制使用者通路HDFS檔案夾、HDFS檔案、資料庫、表、字段權限。這些政策可以為不同的使用者群組來設定,同時權限可與hadoop無縫對接。

簡單說有三大核心技術:拿資料,算資料,賣資料。

首先做為大資料,拿不到大量資料都白扯。現在由于機器學習的興起,以及萬金油算法的崛起,導緻算法地位下降,資料地位提高了。舉個通俗的例子,就好比由于教育的發展,導緻個人智力重要性降低,教育背景變重要了,因為一般人按标準流程讀個書,就能比牛頓懂得多了。谷歌就說:拿牛逼的資料喂給一個一般的算法,很多情況下好于拿傻傻的資料喂給牛逼的算法。而且知不知道弄個牛逼算法有多困難?一般人連這個困難度都搞不清楚好不好……拿資料很重要,巧婦難為無米之炊呀!是以為什麼好多公司要燒錢搶入口,搶使用者,是為了争奪資料源呀!不過營運,和産品更關注這個,我是程式員,我不管……如果你對大資料開發感興趣,想系統學習大資料的話,可以加入大資料技術學習交流扣扣群:4583+數字45782,歡迎添加,私信管理者,了解課程介紹,擷取學習資源。

其次就是算資料,如果資料拿到直接就有價值地話,那也就不需要公司了,政府直接賺外快就好了。蘋果落地都能看到,人家牛頓能整個萬有引力,我就隻能撿來吃掉,差距呀……是以資料在那裡擺着,能挖出啥就各憑本事了。算資料就需要計算平台了,資料怎麼存(HDFS,S3,HBase,Cassandra),怎麼算(Hadoop,Spark)就靠咱們程式猿了。

繼續閱讀