天天看點

2016年大資料技術發展趨勢概述

對大規模資料集進行分析能夠幫助我們掌握隐藏模式、客戶偏好、未知關聯性、市場趨勢以及其它極具價值的業務資訊。在此基礎之上,企業能夠實作成本削減、促進決策制定并提供更多有針對性的産品與服務。而在今天的文章中,我們将共享了解2016年内出現的幾項大資料技術發展趨勢。

apache spark

2016年大資料技術發展趨勢概述

apache spark是一套卓越的開源處理引擎,專門面向複雜分析、高速處理與易用性需求而打造。蕻為程式員們提供立足于資料結構之上的應用程式程式設計接口,而這套資料結構則被稱為彈性分布式資料集,其屬于以容錯方式分布于裝置叢集之上的多套隻讀資料集。

彈性分布式資料集(簡稱rdd)有助于實作互動式算法。此算法會多次通路該資料集,進而實作互動式或者說明性資料分析。利用這類互動式算法作為機器學習系統的訓練機制正是apache spark項目的開發初衷。在它的幫助下,樣本資料分析已經成為一項相當簡單的工作。

下面讓我們看看apache spark在大資料領域脫穎而出的重要原因。

處理速度極快

在大資料處理工作中,速度一直非常重要。apache spark能夠在記憶體内将hadoop叢集應用的運作速度提升100倍,磁盤之上亦能夠提升10倍。spark通過減少對磁盤的讀取或寫入量實作這一效果。中間處理資料被存儲在記憶體當中。

易于使用且支援多種語言

sparks允許大家快速利用java、scala甚至python為其編寫應用。另外,spark本身還内置有80多項進階操作指令。

支援複雜分析

apache sparks支援複雜分析、資料流以及sql查詢。另外,使用者也可以将各項功能全部并入同一工作流程之内。

實時流處理

apache sparks能夠輕松處理實時資料流。它可在實時操作資料的同時,使用spark streaming。

能夠與hadoop及現有hadoop資料相內建

sparks能夠獨立執行,亦可結合hadoop 2的yarn叢集管理器并讀取hadoop資料。這意味着spark适用于遷移任何現有純hadoop應用。

基于hadoop的多核心伺服器

企業正逐漸由昂貴的大型機與企業資料倉庫平台轉向hadoop多核心伺服器。hadoop是一套基于java的開源程式設計架構,能夠在分布式計算環境下支援對超大規模資料集的處理與存儲。

低成本存儲與資料歸檔

hadoop可用于對點選流、交易、科學、機器、社交媒體以及傳感器等生成的資料進行存儲與整合,這主要是受到商用硬體成本不斷降低的推動。低成本存儲方案使我們能夠暫時保留似乎并不重要的資訊,以待稍後進行分析。

以沙箱方式進行發現與分析

hadoop能夠處理各種不同類型與格式的資料,進而運作多種分析算法。hadoop上的大資料分析機制幫助企業實作高效營運、機遇發現并借此提升自身競争優勢。在這方面,沙箱方案則可顯著降低實作成本。

資料湖

利用資料湖,資料能夠以其原始或者精确格式實作存儲。如此一來,資料科學家與分析師将能夠利用原始或者精确資料視圖進行發現與分析工作。

補充性資料倉庫

hadoop與資料倉庫環境并行存在,而部分資料集亦可從資料倉庫中轉移至hadoop或者其它能夠直接為hadoop所用的資料平台之上。由于各企業的實際業務目标不同,是以其采取的資料存儲及處理模式亦有所差別。

物聯網與hadoop

物聯網的核心在于龐大資料流。hadoop常被用于處理此類資料的存儲工作。巨大的存儲與處理能力使得hadoop被作為沙箱環境,進而發現并監控潛在模式以建立規範性指令。

預測分析與物聯網

利用資料、統計算法與機器學習技術,我們有可能根據曆史資料判斷未來的事态走向,這正是預測分析的基本思路。預測分析可用于進行欺詐活動檢測、營銷優化、營運改進以及風險控制等工作。

物聯網是指能夠以開/關控制方式接入網際網路的小型裝置。物聯網市場的整體規模正在快速增長,預計未來20年當中物聯網能夠為全球gdp貢獻10到15萬億美元。

2016年年内,大資料的上述發展趨勢已經基本明确,且通過一系列實踐證明了其在降低風險、改進營運以及檢測欺詐方面的良好功效。而将實時資料源與大規模曆史資料相結合以建立起的洞察能力,則正是預測分析方案的實作基礎。毫無疑問,spark、hadoop以及物聯網将引領新的大資料時代。

本文作者:核子可樂

來源:51cto