天天看點

大資料團隊從0到1

“大資料”這個詞,大家都已經不陌生了,已經從一個新興的詞彙變成了一個百姓茶餘飯後都會聊到的概念。各種大大小小的網際網路公司也都會建立自己的大資料團隊,我也曾經在多家公司從事過大資料領域的開發和團隊管理工作,這裡寫一下我自己的經曆和感受。

公司一般什麼時候需要大資料團隊?

大資料團隊與前端、安卓、運維、測試這些團隊不同,不是公司一開始就必須有的團隊。公司在創業初期,往往不重視、或者說不需要重視資料,業務、産品、功能以及市場資源才是最重要的。

當公司的産品可以在市場上站穩,這之後的幾個月到幾年時間,随着使用者量的增加,資料的量也慢慢上來了。這時候老闆們就會開始重視資料帶來的價值,希望從資料中發現産品的不足、營運的方向甚至一些新的機會點。

有人說,資料量大了才會需要大資料,這顯然是一個外行的錯誤觀念。更為準确的說法是,在公司有了資料意識的時候就會需要大資料。也不能排除這樣的情況:有一些非常優秀的創業者,創業初期就不是從0開始的,而是帶着資源、帶着團隊、帶着項目出來創業的,依據他們項目的成熟度,有可能一開始就會需要大資料團隊。

當然,我也遇到過個别的公司,他們在引入大資料團隊的時候其實并沒有給大資料團隊一個清晰的定位,沒有想清楚未來3、5年期望大資料團隊實作什麼樣的成就。隻是想在對外宣傳的時候,号稱自己公司有“大資料團隊”而已。求職者在應聘時,務必區厘清楚這類公司,以免進入公司之後才發現這其實是一個被邊緣化的團隊。

大資料團隊組織架構V1.0

1.0階段的核心,是資料分析。

背景

大資料團隊一開始存在的意義,往往就是為公司高層或業務部門提供資料的分析和支援。在組建大資料團隊之前,資料的提取和分析都是由後端開發工程師直接從線上資料庫上撈取。稍微靠譜一點兒的開發團隊,則會專門備份出一個隻讀庫、專門用作資料的分析統計,以免直接線上上環境操作資料造成的資料庫壓力過大,影響了線上使用者的正常使用,得不償失。

開發直接做資料分析的好處,是線上的資料結構和代碼邏輯都是開發自己設計的,減少了大量的溝通成本和學習成本,效率高。在初期資料量不大的時候,這種做法無疑是最合适的。

相應的壞處則是:

  1. 開發對于資料并不專業,更容易陷入到自己的邏輯中,察覺不出問題;
  2. 創業早期的開發,工作量一般都是巨大的,不會有太多時間“轉換腦子”來做資料分析;
  3. 開發做的資料分析往往無法形成體系化,來一個、做一個,導緻後邊越來越混亂;

選擇

這種時候,公司一般有兩種選擇:

  1. 引入第三方成熟的資料服務商;
  2. 自己建立大資料團隊;

兩種選擇都各有利弊。

我遇到比較多的情況是,一開始選擇了第三方成熟的資料服務商,但是過了半年左右會發現,資料服務商們的解決方案都是“通用的”,但公司往往需要大量的“個性化的”資料。于是,會開始組建自己的大資料團隊。

如上文所說,組建大資料團隊之前,公司一定要想清楚大資料團隊的定位。一個團隊的存在,一定不能隻是為了解決眼前的幾個問題、解決完就抛棄掉的,一定要有一個長遠的意義和方向。

人員需求

大資料團隊從0到1

如上圖,在确定自己組建大資料團隊之後,團隊建立初期往往需要兩類人:

數倉開發工程師。

  • 任職要求關鍵詞:Hive/MaxCompute/Spark、資料倉庫、DataX/Kettle、Zeus/Airflow/Azkaban
  • 崗位職責:資料倉庫的搭建與維護,臨時需求的開發等等
  • 我的了解:傳統的數倉,都是直接使用mysql或者oracle、單獨建立一個從庫專門作為資料倉庫。但大資料時代的資料倉庫的技術選型,喜歡開源的會使用Hive/Spark、喜歡阿裡雲的會使用MaxCompute,是以這個職位的要求也是必須要精通這類産品的使用,并且掌握資料倉庫的設計理念(Inmon、Kimball、寬表、星型模型、雪花模型等等諸如此類的關鍵詞)。使用的規律一般是每天業務閑時(一般是淩晨)從線上資料庫全量或增量同步資料到數倉中,在數倉中進行多層複雜的清洗和計算,最終将結果資料導出或同步到其他的資料存儲當中用于展示。數倉開發工程師的主要工作内容,就是将這一套自動化的流程實作,而這一套流程中少不了“資料同步”、“任務排程平台”等軟體的支援。

資料分析師。

  • 任職要求關鍵詞:QuickBI/PowerBI/FineReport、Excel/PPT
  • 崗位職責:BI可視化報表的開發與維護、資料名額體系的建構等等
  • 我的了解:上面說的數倉開發工程師,其實更接近于開發,所做的工作也都是資料的開發。有“開發”,就要有“産品”,這是亘古不變的真理。在大資料這一領域的産品經理,其實就是資料分析師。他們主動從業務中發現機會和問題,提出需求,整理資料,繪制BI報表或資料分析報告,為老闆和業務部門提供資料支援,也是業務部門與開發對接的橋梁。相比數倉開發,少了一些技術意識、多了一些産品意識。

當然,很多公司為了節省人力資源成本,往往會把這兩個崗位合并成一個,要求這個人既會數倉開發、又要有産品意識、還得能把BI報表平台輸出出來。

大資料團隊工作成果V1.0

  1. 離線計算平台:提供T+1的離線資料的計算、可靈活接入新增的業務
  2. BI報表平台:提供資料名額的可視化展示平台

總結

第一階段,是輸出成果最快、最容易的階段。

借助阿裡雲成熟的大資料解決方案,可以在一周之内完成整套流程的建設、并輸出包含有數十個名額的BI平台的建設。

使用開源軟體則會偏慢,初期的系統搭建、環境配置等需要耗費大量的時間。如果沒有足夠有經驗的人帶隊,很可能2、3個月乃至更久的時間沒有成果的輸出。而這一階段恰好需要大量的錢來購買高配的機器、招募高薪的人員,如果公司對大資料團隊沒有足夠的耐心,甚至可能是以導緻整個團隊的解散。