多數企業将雲視為大資料部署的最佳平台

2016年即将結束，一項新的調查結果表明，大資料技術在雲環境下正發展成熟且規模快速增長。

作為利用olap類多元資料集立足hadoop進行商務智能分析的專業企業，atscale公司最近對來自77個國家1400家公司的2550多位大資料專家進行了調查。此項調查還邀請到了cloudera、hortonworks、mapr、cognizant、trifacta以及tableau等各方共同參與。

atscale公司的這份《2016年大資料成熟度調查》發現，近70%的受訪者已經擁有超過一年的大資料技術使用經驗（上年這一比例為59%）。76%的受訪者目前正在使用hadoop，而有73%表示其正将hadoop引入生産環境（上年這一比例為65%）。另外，74%的受訪者擁有超過10套hadoop節點，而20%受訪者則擁有超過100套節點。

“在本次調查當中，受訪者的成熟度成為一項關鍵性因素，”大資料分析師以及《颠覆性分析（disruptive analytics）》一書作者thomas dinsmore在本周三的一份聲明中表示。“目前已經有五分之一受訪者擁有超過100台節點，而74%的受訪者将相關技術引入生産，這一數字較上一年有了兩位數的增長。”

受訪者同時表示，他們正越來越多地轉向雲環境，考慮借此托管自己的大資料分析任務。53%的受訪者指出，他們已經将大資料負載部署至雲當中; 而14%受訪者則已經将其全部資料部署至雲端。72%的受訪者計劃接下來利用雲服務進行大資料部署。

“很明顯，過去一年中大資料在雲環境下的應用出現顯著增長，而更有趣的是受訪者們顯然認為資料在雲端更有可能産生實際價值，”atscale公司cto兼聯合創始人matt baird解釋稱。

hadoop在外部環境下效果更佳

“hadoop非常棘手，”atscale公司ceo兼創始人dave mariani補充稱。“其非常難于部署，同樣非常難于管理。我發現大多數客戶都不希望分神考慮其hadoop叢集的管理工作。雲環境帶來的規模化彈性能力，不僅是随意添加節點同時亦可根據需要輕松削減節點，同時利用對象存儲機制作為持久層進行資料容納，這種實作方式與内部hadoop架構完全不同。”

而在大資料技術不斷成熟的同時，其面向的主要工作負載類型也在發生變化。

“去年的頭号工作負載類型為etl，其次是商務智能，再次是資料科學，”atscale公司首席營銷官bruno aziza指出。“今年，頭号工作負載類型變成了商務智能。”

商務智能規模可觀

etl與資料科學仍然在大資料工作負載當中占據可觀比重，但商務智能（簡稱bi）則在過去一年中呈現出不可阻擋的發展趨勢，其已經在受訪者的現有及未來預期大資料使用方向層面占據75%支援率。而且就目前來看，這種趨勢毫無轉弱的迹象——如果調查結果正确的話。有高達97%的受訪者表示他們計劃在未來三個月中利用大資料技術支援商務智能負載。

盡管spark周邊一直圍繞着不少炒作之聲，不過本次調查發現42%的企業雖然利用spark實作某些教育目标，但目前尚未真正利用其建構真實項目。隻有三分之一受訪者指出，spark目前在其開發工作中占可觀比重，而25%的受訪者則表示他們已經将spark部署至開發及生産環境當中。

“spark雖然令人們非常興奮，但其實際部署比重仍然比較有限，”aziza總結稱。

“如果大家探究這些hadoop技術使用計劃，就會發現大多數人都抱持着‘我打算将spark作為首選引擎’的想法。然而一旦進入hadoop實際使用階段，大多數人則更傾向于使用hive，”mariani補充稱。“大家永遠不會在etl管道中使用spark。hive在這方面表現無疑更好。不過同樣的，我們也永遠不會在互動式查詢領域使用hive，這方面的最佳選項應該是spark或者impala。”

不過需要注意的是，已經在生産環境中部署spark的企業切實獲得價值回報的可能性要高出85%。

在大資料技術難題方面，可通路性、安全性以及治理成為關注度同比增長最快的三大議題。其中治理相關擔憂的增幅最大，占全部受訪者的21%。

本文作者：核子可樂

來源：51cto

多數企業将雲視為大資料部署的最佳平台

繼續閱讀

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

關于SQL語言

SQL語言基礎：常用的資料查詢語句

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

neo4j之cypher使用文檔

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

sqlServer根據經緯查距離

win10本地scala和spark安裝安裝scala安裝spark