導讀 公司最重要的資産是資料。本文将分享大資料時代平台型資料産品經理需要具備的能力和知識,主要圍繞以下四點來展開讨論:
1. 大資料的曆史與未來
2. 認識平台型資料産品經理
3. 平台型資料産品經理的核心能力
4. 離線數倉建構流程
平台型資料産品經理的能力體系涉及内容繁多,但是篇幅有限,是以許多内容不會展開去講,本文重點講解整體的能力體系架構,以及其中關鍵的部分。
分享嘉賓|張朋威 帆軟軟體 進階産品經理
編輯整理|李本培 中地數位
出品社群|DataFun
01
大資料的曆史與未來
1. 大資料發展曆史
大資料發展到現在将近 30 年,經曆了多個階段。
第一個階段在 90 年代,随着商業智能 BI 的出現,企業通過處理資料去進行決策分析,因而産生了面向分析的傳統數倉。
第二個階段在 2005 年前後拉開序幕,以離線大資料計算為主的Hadoop體系誕生,它來源于谷歌的三篇鼻祖型論文(俗稱:谷歌三駕馬車),分别是分布式處理技術(MapReduce)、列式存儲(BigTable)、分布式檔案系統(GFS),這三篇論文奠定了現代大資料技術的理論基礎。
第三個階段是 2014 年前後,流式計算核心開源産品Flink的出現。Hadoop 體系主要以離線大資料計算為主,在近實時計算方面,雖然能夠有一些展現(比如 Spark Streaming),但存在比較多的問題,比如用 Spark Streaming 去做微批處理,雖然吞吐高,但性能不好。2014 年前後,流式計算核心項目 Flink 的誕生,開始真正地做到流式計算。
2. 大資料未來發展趨勢
第一個趨勢是批處理到近實時處理。随着時代的發展,企業對實時性要求越來越高,比如電商類銷售和監控的場景,需要建立近乎實時的資料倉庫,有利于分析最新資料并加快決策速度。
第二個是智能化的方向。即引入人工智能的方式去進行資料治理,通過這種方式去解決傳統資料治理等過程中響應速度慢,開發成本高等問題。
第三個是開源産品到商業化産品。時至今日,大資料開源産品依然是國内許多企業開發資料平台的技術選型。但開源産品使用門檻比較高,維護服務對企業不夠友好。未來商業化産品會逐漸在許多場景下替代開源産品,尤其是對于需求不太複雜的中小型企業。
--
02
認識平台型資料産品經理
1. 資料産品是什麼
資料産品用來降低使用者使用資料門檻,提高資料的價值,從生産采集、存儲處理、分析展示到挖掘應用的全鍊路,都可以稱之為資料産品。進一步細分,還可以分為面向企業内部,面向使用者,以及面向外部企業等類型。
2. 資料産品經理是什麼
資料産品經理就是負責設計、維護和優化資料産品的人。通常情況,資料産品經理分了三個方向:第一類方向是平台型資料産品經理,主要負責資料采集、清洗、存儲、釋出;第二類是分析應用型的産品經理,主要負責資料分析、展示及應用;第三類是政策算法型,主要集中在資料挖掘應用環節,聚焦于探索、推薦、風控的資料政策和模型部分。
--
03
平台型資料産品經理核心能力
平台型資料産品經理能力樹如下,可以總結梳理為 3 大類 11 個技能點。
1. 通用能力
平台型資料産品經理首先需要具備産品經理所具備的一些技術能力:
- 一是需求洞察,在面對使用者提需求的時候,要了解使用者遇到的問題,需要解決哪些問題,了解需求産生的背景以及目的,進而挖掘使用者最本質的需求是什麼。同時,針對不同使用者或者不同的需求方,能夠把不同的需求進行歸類分解,提煉出通用需求,并設定優先級,該能力是産品經理非常重要的一個能力。
- 二是方案設計,在基于業務需求構思可行的方案并進行決策選擇的時候,哪些方案能夠滿足使用者真實需求,哪些方案實作成本最低,哪些方案未來長期的可維護性最高,都需要産品經理進行決策。
- 三是項目管理能力,産品開發的每個疊代周期需要把開發計劃進行拆解出不同的裡程碑。通過裡程碑的設計,提前進行任務排期、風險管控,進而有利于在開發過程中進行進度跟進、風險識别及處理等。以上都是産品經理需要具備的通用能力。
2. 專業思維
專業思維主要包括四點:
第一點是統一标準,産品經理經常會與名額打交道,在面對多類型名額時,需要達成統一标準。以增長率為例,A 部門的增長率和 B 部門的增長率,背後的計算邏輯可能不一樣,或者兩個部門有兩個名額,看起來計算邏輯是一樣,但是名稱不一樣,這些都需要去考慮并完成标準統一,進而降低後續維護成本和使用者使用成本。
第二點是分層設計,在進行名額拆解的時候,要遵循分層的原則,拆解出通用的名額,避免從最底層穿透到最上層直接進行資料開發。
第三點是資料共享,要能夠整合、提煉出共性需求,再進行開發,在縮減開發成本的同時提高産品未來的可維護性。
第四點是價值驅動,資料的價值要以能夠帶來整體價值作為評估标準,面向價值的理念要貫穿需求評估、産品設計及開發應用全流程。
3. 專業能力
平台型資料産品經理的專業能力和其他類型産品經理需具備的專業能力差異比較大,主要展現在四個方面:
- 第一個方面是技術能力,有些企業會把諸多職能放到一起作為平台型資料産品經理的崗位,例如需要做 ETL 開發模組化相關的工作,那麼對該崗位能力要求比較高。但是如果企業内這個崗位是比較細分的,例如隻需要做整體需求的分析、發展規劃和項目管理等工作,技術要求比較低。
- 第二個方面是基礎知識,大資料平台型資料産品經理,需要掌握大資料領域相關的知識。雖然不要求去了解每一個技術或産品背後的原理,但是這些技術産品的概念或使用邏輯需要掌握。
- 第三方面是知識體系,在設計數倉的分層設計以及分解名額的時候,需要一套方法論(PPT 中列舉出來一些書籍供參考)。
- 第四個方面是工具的使用,工具主要分為 ETL 工具、模組化工具、資料庫管理工具等(建議基于企業自身情況去進行學習使用)。
接下來在各個能力項裡面選一些典型的知識,做一些概述性的講解。
4. Hadoop 生态體系
掌握大資料開發需要先了解 Hadoop 生态,因為它是最早成熟的傳統數倉開發架構,至今依然被諸多企業使用,另外 Hadoop 生态非常完整,當熟悉了各個産品的作用,後續再去接觸其他大資料開發相關的産品,都能夠快速了解其在資料開發體系中發揮的作用。
5. 技術名稱
接下來再分享一些基礎的技術名詞,如圖所示:
6. 工具使用
下面是幾個常見的資料平台開發工具,可以基于公司采購情況和個人的情況選擇學習。
7. 資料平台架構
資料平台通常分離線資料平台和實時資料平台。
離線資料平台和實時資料平台的整體架構有兩個明顯差異點,首先,離線資料平台是定時的采集,離線的開發;另外,離線資料倉庫是分層的理念,包括 ODS 層,彙總層、明細層、集市層等,實時資料平台沒有這種分層理念。
實時資料平台顯著的特點是資料實時采集,最常用的技術就是基于日志解析,它并不是直接去讀取資料庫的檔案,而是基于資料庫變更的日志去解析提取出變化的資料,然後再同步到目标端,目标端通常用消息中間件來接收,如:Kafka,再給後面的流式計算引擎應用(如 Flink),最終再輸出到目标端供消費。
--
04
離線數倉建構流程
接下來分享離線數倉建構的流程。
1. 離線數倉建設兩種方法
離線數倉建構有兩個方法,一種是自上而下,一種是自下而上。自上而下指的是從企業整體出發,去梳理各個部門的名額、需求,然後進行統一的設計。
自上而下建構要求層次特别清晰,且遵循第三範式,避免資料備援,優勢是結構比較清晰,缺點是梳理設計開發的流程會很緩慢。自下而上特點是面向分析,面向主題,例如 A 部門有分析需求,就針對 A 部門的分析需求去建主題,去進行設計開發,B 部門有分析需求,再針對 B 部門去做分析主題,最終不同的分析主題形成一個大的資料倉庫,問題在于會有資料備援,會出現資料孤島等現象。如果公司層面有大量資源投入,部門之間協調推進能力比較強,可以用第一種,但如果企業需要快速的看到成效,得到結果,追求性能,可以選擇第二種,通常情況下兩種結合起來去用。
2. 離線數倉建構流程
離線數倉建構流程分成六大步。
第一步是需求調研,需要收集業務部門的資料需求,确定資料名額、使用場景,要求平台資料産品經理,要有很好的需求了解能力;
然後基于資料需求,進行名額拆解、建立聯系,明确名額計算邏輯,確定名額口徑統一,并且基于名額計算邏輯,按照資料字典,找到資料庫對應的表格字段。
當名額梳理好以後,就可以進行分層模組化。按照提前設計好的層級去設計分層結構,整理出事實表、次元表進行邏輯模型的建立。
接下來就進入比較重要的資料開發環節,基于設計好的分層名額和計算邏輯去開發,再配置更新的邏輯,設計過程中要考慮資料的更新方式,如全量或增量更新、使用周期等。
資料開發完成後,需要進行資料校驗,確定資料是準确、可用的,這樣才能夠支撐後面的資料分析、展示和應用。
最後 API 開發是針對開發的資料結果,用 API 的形式給釋出出去。
整個環節裡面,需求調研、梳理名額,分層模組化是最關鍵的,因為這三步決定了整個資料開發的成敗。
下圖出了今日分享内容中涉及到的文獻,感興趣的同學可以自行檢視。
--
05
問答環節
Q1:平台型資料産品經理和傳統産品經理的差異有哪些?
A1:主要是專業的思維和能力。傳統産品經理對數倉的建構流程,以及對大資料體系的相關知識不需要掌握。但是平台型資料産品經理,就需要掌握上文介紹的專業思維和能力,這是一個很明顯的差異。
Q2:資料産品的發展方向?
A2:首先是往實時方向發展。然後是智能化方向,越來越多的做資料産品公司,都在提智能化,但智能化現在還不太成熟,如果能達到成熟的階段,會大幅降低企業投入成本。
今天的分享就到這裡,謝謝大家。
|分享嘉賓|
張朋威|帆軟軟體 進階産品經理
畢業于鄭州大學,就職于帆軟帆軟有限公司,目前負責FineDataLink的産品整體規劃和産品架構設計。
|《資料智能知識地圖》下載下傳|
上下滑動⬆️⬇️,檢視《資料智能知識地圖》資料治理闆塊(點選可看大圖),關注公衆号“大話數智”,下載下傳完整版知識地圖
|DataFun新媒體矩陣|
|關于DataFun|
專注于大資料、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公衆号 DataFunTalk 累計生産原創文章900+,百萬+閱讀,16萬+精準粉絲。