從大資料的風水圖，來看到底大資料是怎麼回事

本文中的big data landscape圖筆者随手分享在linkedin上，不曉得引起大量轉發和評論，截止本周，得到6700個like，3800次share，400多條comment，筆者也覺得很神奇。這裡就跟從事大資料或者投資領域的朋友推薦一下。原文作者是vc first mark的mark turck，提下這一家vc，主要投資于早期階段技術類公司的風險投資機構，包括新興媒體、廣告、遊戲、教育、雲計算、分析和基礎裝置等方向。大家熟悉的airbnb，pinterest，shopify都有它的投資身影。

技術型的高科技創業公司都是喜歡閃閃發光的新東西，而“大資料”跟3年前火熱程度相比反而有些凄慘。雖然hadoop建立于2006年，在“大資料”的概念興起到達白熱化是在2011年至2014年期間，當時在媒體和行業面前，大資料就是“黑金石油”。但是現在有了某種高原感。 2015年資料世界中時尚年輕人喜歡轉移到ai的相關概念，他們口味變成：機器智能，深度學習等。

除了不可避免的炒作周期，我們第四次年度“大資料風水圖”（見下圖），回顧過去一年發生的事情，思考這個行業的未來機會。

2016年大資料還是“回事”麼？讓我們深度挖掘。

企業級技術 = 艱苦的工作

其實大資料有趣的是它不是直接可以炒作的東西。

能夠獲得廣泛興趣的産品和服務往往是那些人們可以觸摸和感受到的，比如：移動應用，社交網絡，可穿戴裝置，虛拟現實等。

但大資料，從根本上說是“管道”。當然，大資料支援許多消費者或企業使用者體驗，但其核心是企業的技術：資料庫，分析等：而這後面幾乎沒人能看到東西運作。

而且如果大家真正工作過的都知道，在企業中改造新技術并不大可能在一夜之間發生。

早年的大資料是在大型網際網路公司中（特别是谷歌，雅虎，facebook，twitter，linkedin等），它們重度使用和推動大資料技術。這些公司突然面臨着前所未有的資料量，沒有以前的基礎設施，并能招到一些最好的工程師，是以他們基本上是從零開始搭建他們所需要的技術。開源的風氣迅速蔓延，大量的新技術與更廣闊的世界共享。随着時間推移，其中一些工程師離開了大型網絡公司，開始自己的大資料初創公司。其他的“數字原生”的公司，其中包括許多獨角獸，開始面臨跟大型網際網路公司同樣需求，無論有沒有基礎設施，它們都是這些大資料技術的早期采用者。而早期的成功導緻更多的創業和風險投資。

現在一晃幾年了，我們現在是有大得多而棘手的機會：資料技術通過更廣泛從中型企業到非常大的跨國公司。不同的是“數字原生”的公司，不必從頭開始做。他們也有很多損失：在絕大多數的公司，現有的技術基礎設施“夠用”。這些組織也明白，宜早不宜遲需要進化，但他們不會一夜之間淘汰并更換關鍵任務的系統。任何發展都需要過程，預算，項目管理，導航，部門部署，全面的安全審計等。大型企業會小心謹慎地讓年輕的創業公司處理他們的基礎設施的關鍵部分。而且，一些（大多數？）企業家壓根不想把他們的資料遷移到雲中，至少不是公有雲。

p2.png

（大資料分析的基本流程圖）

從另一個關鍵點大家就明白了：大資料的成功是不是實作一小片技術（如hadoop的或其他任何東西），而是需要放在一起的技術，人員，流程的流水線。你需要采集資料，存儲資料，清理資料，查詢資料，分析資料，可視化資料。這将由産品來完成，有些由人力來完成。一切都需要無縫內建。歸根結底，對于這一切工作，整個公司，從進階管理人員開始，需要緻力于建立一個資料驅動的文化，大資料不是小事，而是全局的事。

換句話說：這是大量艱苦的工作。

部署階段

以上解釋了為什麼幾年後，雖然很多高調的創業公司上線也拿到引人注目的風險投資，但隻是到達大資料部署和早期成熟階段。

更有遠見的大公司（稱他們為“嘗鮮者”在傳統的技術采用周期），在2011 - 2013年開始早期實驗大資料技術，推出hadoop系統，或嘗試單點解決方案。他們招聘了形形色色的人，可能工作頭銜以前不存在（如“資料科學家”或“首席資料官”）。他們通過各種努力，包括在一個中央儲存庫或“資料湖”傾倒所有的資料，有時希望魔術随之而來（通常沒有）。他們逐漸建立内部競争力，與不同廠商嘗試，部署到線上，讨論在企業範圍内實施推廣。在許多情況下，他們不知道下一個重要的拐點在哪裡，經過幾年建設大資料基礎架構，從他們公司業務使用者的角度來看，也沒有那麼多東西去顯示它。但很多吃力不讨好的工作已經完成，而部署在核心架構之上的應用程式又要開始做了。

下一組的大公司（稱他們為“早期大衆”在傳統的技術采用周期）一直呆在場邊，還在迷惑的望着這整個大資料這玩意。直到最近，他們希望大供應商（例如ibm）提供一個一站式的解決方案，但它們知道不會很快出現。他們看大資料全局圖很恐怖，就真的想知道是否要跟那些經常發音相同，也就湊齊解決方案的創業公司一起做。他們試圖弄清楚他們是否應該按順序并逐漸工作，首先建構基礎設施，然後再分析應用層，或在同一時間做所有的，還是等到更容易做的東西出現。

生态系統正在走向成熟

同時，創業公司/供應商方面，大資料公司整體第一波（那些成立于2009年至2013）現在已經融資多輪，擴大他們的規模，積累了早期部署的成功與失敗教訓，也提供更成熟，久經考驗的産品。現在有少數是上市公司（包括hortonworks和new relic 它們的ipo在2014年12月），而其他（cloudera，mongodb的，等等）都融了數億美元。

vc投資仍然充滿活力，2016年前幾個星期看到一些巨額融資的晚期大資料初創公司：datadog（9400萬），bloomreach（5600萬），qubole（3000萬）， placeiq（ 2500萬）這些大資料初創公司在2015年收到的$ 66.4億創業投資，占高科技投資總額的11％。

随創業活動和資金的持續湧入，有些不錯的資本退出，日益活躍的高科技巨頭（亞馬遜，谷歌和ibm），公司數量不斷增加，這裡就是2016年大資料全景圖：

2016年2月12日修訂，（本文最有價值的圖）

很顯然這裡密密麻麻很多公司，從基本走勢方面，動态的（創新，推出新的産品和公司）已逐漸從左向右移動，從基礎設施層（開發人員/工程師）到分析層（資料科學家和分析師的世界）到應用層（商業使用者和消費者），其中“大資料的本地應用程式”已經迅速崛起- 這是我們預計的格局。

大資料基礎架構：創新仍然有很多

正是因為谷歌十年前的mapreduce和bigtable的論文，doug cutting， mike cafarella開發建立hadoop的，是以大資料的基礎架構層成熟了，也解決了一些關鍵問題。

而基礎設施領域的不斷創新蓬勃發展還是通過大量的開源活動。

apache-spark.png

（spark帶着hadoop飛）

2015年毫無疑問是apache spark最火的一年，這是一個開源架構，利用記憶體中做處理。這開始得到了不少争論，從我們釋出了前一版本以來，spark被各個對手采納，從ibm到cloudera都給它相當的支援。 spark的意義在于它有效地解決了一些使用hadoop很慢的關鍵問題：它的速度要快得多（基準測試表明：spark比hadoop的mapreduce的快10到100倍），更容易編寫，并非常适用于機器學習。

其他令人興奮的架構的不斷湧現，并獲得新的動力，如flink，ignite，samza，kudu等。一些思想領袖認為mesos的出現（一個架構以“對你的資料中心程式設計就像是單一的資源池”），不需要完全的hadoop。即使是在資料庫的世界，這似乎已經看到了更多的新興的玩家讓市場持續，大量令人興奮的事情正在發生，從圖形資料庫的成熟（neo4j），此次推出的專業資料庫（時間序列資料庫influxdb），cockroachdb，（受到谷歌spanner啟發出現，号稱提供二者最好的sql和nosql），資料倉庫演變（snowflake）。

大資料分析：現在的ai

在過去幾個月的大趨勢上，大資料分析已經越來越注重人工智能（各種形式和接口），去幫助分析海量資料，得出預測的見解。

最近ai的複活就好比大資料生的一個孩子。深度學習（擷取了最多的人工智能關注的領域）背後的算法大部分在幾十年前，但直到他們可以應用于代價便宜而速度夠快的大量資料來充分發揮其潛力（yann lecun, facebook深度學習研究員主管）。 ai和大資料之間的關系是如此密切，一些業内專家現在認為，ai已經遺憾地“愛上了大資料”（geometric intelligence）。

反過來，ai現在正在幫助大資料實作承諾。ai /機器學習的分析重點變成大資料進化邏輯的下一步：現在我有這些資料，我該怎麼從中提取哪些洞察？當然，這其中的資料科學家們 - 從一開始他們的作用就是實作機器學習和做出有意義的資料模型。但漸漸地機器智能正在通過獲得資料去協助資料科學家。新興産品可以提取數學公式（context relevant）或自動建構和建議資料的科學模式，有可能産生最好的結果（datarobot）。新的ai公司提供自動完成複雜的實體的辨別（metamind，clarifai，dextro），或者提供強大預測分析（hyperscience）。

由于無監督學習的産品傳播和提升，我們有趣的想知道ai與資料科學家的關系如何演變 - 朋友還是敵人？ ai是肯定不會在短期内很快取代資料科學家，而是希望看到資料科學家通常執行的簡單任務日益自動化，最後生産率大幅提高。

通過一切手段，ai /機器學習不是大資料分析的唯一趨勢。令人興奮的趨勢是大資料bi平台的成熟及其日益增強的實時能力（sisense，arcadia）

大資料應用：一個真正的加速度

由于一些核心基礎架構難題都已解決，大資料的應用層迅速建立。

在企業内部，各種工具已經出現，以幫助企業使用者操作核心功能。例如，大資料通過大量的内部和外部的資料，實時更新資料，可以幫助銷售和市場營銷弄清楚哪些客戶最有可能購買。客戶服務應用可以幫助個性化服務; hr應用程式可幫助找出如何吸引和留住最優秀的員工;等

專業大資料應用已經在幾乎任何垂直領域都很出色，從醫療保健（特别是在基因組學和藥物研究），到财經到時尚到司法（mark43）。

兩個趨勢值得關注。

首先，很多這些應用都是“大資料同鄉”，因為他們本身就是建立在最新的大資料技術，并代表客戶能夠充分利用大資料的有效方式，無需部署底層的大資料技術，因為這些已“在一個盒子“，至少是對于那些特定功能 - 例如，actioniq是建立在spark上，是以它的客戶可以充分利用他們的營銷部門spark的權力，而無需實際部署spark自己 - 在這種情況下，沒有“流水線”。

第二，人工智能同樣在應用程式級别有強大吸引力。例如，在貓捉老鼠的遊戲，安全上，ai被廣泛利用，它可以識别黑客和打擊網絡攻擊。 “人工智能”對沖基金也開始出現。全部由ai驅動數字助理行業已經去年出現，從自動安排會議（x.ai）任務，到購物為您帶來一切。這些解決方案依賴人工智能的程度差别很大，從接近100％的自動化，到個人的能力被ai增強 - 但是，趨勢是明确的。

結論

在許多方面，我們仍處于大資料的早期。盡管它發展了幾年，建設存儲和資料的過程隻是第一階段的基礎設施。 ai /機器學習出現在大資料的應用層的趨勢。大資料和ai的結合将推動幾乎每一個行業的創新，這令人難以置信。從這個角度來看，大資料機會甚至可能比人們認為的還大。

随着大資料的不斷成熟，這個詞本身可能會消失或者變得過時，沒有人會使用它了。它是成功通過技術，變得很普遍，無處不在，并最終無形化。

本文轉自d1net（轉載）

從大資料的風水圖，來看到底大資料是怎麼回事

繼續閱讀

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

win10本地scala和spark安裝安裝scala安裝spark