對于我來講,我本身是學的軟體工程,後來從事産品經理,作為toB端的産品經理,可能最爽的點在于設計軟體的過程中,能把業務吃透,面對龐大的業務體系和複雜的邏輯,很難讓自己在專業方面沒有提升。
但是在經曆面向的大多數是大客戶和上司層面的人之後,難免會産生枯燥的感覺和到達瓶頸的挫敗感,因為大多數情況下,toB産品不需要創新,不需要美感,更不需要突然爆發的靈感,需要的是對客戶業務場景的深入調研和了解,強調的是客戶的價值。
在toC端資料分析一片紅海的情況下,toB在此領域倒是顯得有些呆萌,說到底,toB的産品對于資料分析這項技能用的很少甚至不會用到。但是,在經曆了上述心路曆程之後,也會有新的發現,那就是在toB端工作久了,越來越發現對于政策的把控和對于民生發展的趨勢的把握顯得十分重要,然而在公司的背景下,對于有些東西是現成的,直接拿來上手去做就可以,這就導緻了對自身思維的禁锢,但是哪怕假設假如以後會創業(每一個産品都有一顆創業的心),對于資料分析來講也是寫好計劃書的一小部分不可忽視的技能,是以當toB遇到資料分析未嘗不能擦出一些火花。
後續會更新更加詳細的步驟包括用到的工具
以下内容均來自一個初步認知資料分析的toB産品的總結:
資料分析大緻可以分為以下幾個步驟:
1、問題工程--得到什麼結果
2、信源工程--資料從哪來
3、資料工程--也可以叫資料處理(為了格式一緻就叫那個名字吧),目的是得到“好”資料
4、特征工程--從哪些次元入手
5、模型工程--标簽應該怎麼分析
6、展示工程--結果怎麼呈現
最後,講好一個故事,一個可以将上述步驟都包含進去的故事
一、問題工程
問題工程簡單來講就是想要得到什麼結果。什麼樣的曲調決定了歌詞情感動向,如果在一開始就沒有想清楚到底研究的是什麼問題,或者沒有一個明确地主旨的話,那麼後面所做的東西都用不上(簡稱:垃圾)。是以第一步雖然是最簡單的,卻也是最重要的。
二、信源工程
1.信源劃分:
可以将信源劃分為資訊釋出者、行業類型、所屬地域和網站類型這幾個次元。
信源類型
資訊釋出者
可以分為UGC(個人)、PGC(專業生産内容)、OGC(職業生産内容)
資訊釋出者類型
行業類型:
- 保險業
- 能源
- 餐飲
- 電訊業
- 房地産
- 服務業
- 服裝業
- 公益組織
- 廣告業
- 航空航天
- 化學
- 健康
- 保健
- 建築業
- 教育
- 教育訓練
- 計算機
- 農業
- 旅遊業
- 律師
- 體育運動
- 演藝
- 醫療服務
- 設計
- 金融
- 交通運輸業
- 咨詢等等行業
所屬地域:
可以按省市劃分,按國家劃分等
網站類型
例如咨詢、社交、百科、視訊、百度經驗、企業類
再細化一點比如電商的分類:
綜合類:淘寶、天貓、京東、蘇甯
飲食類:美團、餓了麼
鍛煉類:keep、薄荷健康
旅遊類:大衆點評、攜程、去哪兒
2.資料類型的劃分
還是舉個例子,對于電商來講,包括但不限于:産品名稱、任務資料、動态資料(評論數、轉發數)、轉發資料、收藏量
3.定位有價值的信源基本步驟
第一步:讀題,解析命題
第二步:拓開思路,列出信源可能的來源
第三步:按照第二步的清單去篩選需采集的信源和資料
第四步:在已采集的資料中再次精加工,得到有價值的基礎資料
*商品類的分析一定會需要商品售賣的資料、商品的描述、商品的口碑、品牌的口碑等等,是以電商資料、評論資料、口碑資料、微網誌資料這些不可或缺
*事件類的分析一定會有官媒資料、群眾讨論的資料等等,是以,資訊資料、微網誌、貼吧、論壇這些資料不可或缺
*行業類的分析一定會有行業專業網站、國家政策、行業論壇等等,是以,需要找的就是專業性論壇、專業網站、官方站點、可能還需要toB站點的相關資料
4.從信源得到資料
收集信源我一般會用火狐,因為會有好用的插件。 注:在用Python爬蟲時可以根據可以根據網址的規律提取連接配接
火狐的插件
信源可以根據清單頁和正文頁擷取,信源的擷取過程中有以下情形:
- 正常的信源頁,我們從源碼中就可以看到可以采集的正文頁連結,非常好提取
- 有嵌套的信源頁,這種直接看源碼是看不到正文頁的,需要我們找到正确的清單頁,比如下圖的某政府網站,需要點開真正的清單
- 信源頁中的正文頁連結是需要拼接的
- 信源頁中有多條資訊,需要從中直接提取每條資料的字段的(例如:搜尋引擎頁面)
- 需要登入的
- 其他一些做特殊配置的
其實可以思考一下,按照網站類型可以将以下情景的信源劃分為哪些次元,并給出合适的資料(網站)來源
1、分析天津市針對人工智能專業博士的需求情況
2、分析網際網路上針對綜藝節目《乘風破浪的姐姐》節目評價及該節目的閱聽人人群
以下隻是簡單提供一種思路
第一個場景按照網站類型可以将信源劃分為判決文書、電商類、資訊類、行政處罰、企業工商注冊資料、百度經驗、企業類、法院類、百科等這些次元。
1、第一個情景分析天津市針對人工智能專業博士的需求情況:
首先組合幾個次元分析,所屬地域限定在北京,行業類型限定為人工智能,資訊釋出者為PGC内容,網站類型為行業專業網站、國家政策和行業論壇,進一步定位有價值的信源,就要從專業性論壇、專業網站、官方站點、toB站點擷取相關資料
2、第二個情景分析網際網路上針對綜藝節目《乘風破浪的姐姐》節目評價及該節目的閱聽人人群:
首先組合幾個次元分析,行業類型定位在娛樂和影視,資訊釋出者UGC和PGC都要分析,因為屬于事件類的分析,主要分析節目評價及該節目的閱聽人人群,是以就要有官媒資料、群眾讨論的資料、群眾自身年齡的資料等,是以網站類型要從資訊和社交兩個方面分析,例如從《乘風破浪的姐姐》官方微網誌、貼吧、論壇找出這些資料
三、資料工程(資料處理)
5.資料結構化:
将資料整理成能看的結構
資料結構化
傳播力分析:标題、出處、釋出時間
人物畫像:微網誌人物字段
消費者人物畫像:評論字段
汽車名額:汽車網站字段
電商人物畫像:消費習慣
6.資料處理
其實上學的時候也學過很多資料處理的知識,有各種插值法,回歸,聚類等方式處理資料,但凡有一點在腦子裡,我也不至于重新學。不過基本的我還是印象深刻的:
1)首先要進行資料清洗,主要是删除原始資料集中的無關資料、重複資料,平滑噪聲資料,處理缺失值、異常值等,讓資料變得“幹淨”。
2)缺失值處理,處理缺失值的方法可分為三類:删除記錄、資料插補和不處理。其中常用的資料插補方法見下表:
其中,插值有兩個比較重要的是拉格朗日插值和牛頓插值。
3)異常值處理
4)資料變換
主要是對資料進行規範化的操作,将資料轉換成“适當的”格式,以适用于挖掘任務及算法的需要。會涉及到歸一化處理、屬性構造、小波變換等方式,進而達到資料使用的标準。
5)資料規約
資料規約是将海量資料進行規約,規約之後的資料仍接近于保持原資料的完整性,但資料量小得多。通過資料規約,可以達到:
- 降低無效、錯誤資料對模組化的影響,提高模組化的準确性
- 少量且具代表性的資料将大幅縮減資料挖掘所需的時間
- 降低儲存資料的成本
資料規約會對屬性和數值兩個方面進行(具體的我也忘得差不多了),但是講真,簡單的資料分析(給自己看的資料分析)不會進行到這一步的。
7.資料模組化
這塊到後面會詳細說一下,因為一旦展開就真的太多了。大概會有聚類、分類、關聯、回歸、時序模式、離群點檢測等。
四、特征工程/資料分析
分析可以從以下幾個方面入手:
關注點:分析使用者使用情境中的核心訴求,使用者在産品購買使用中最關注什麼?影響使用者選擇的關鍵要素
使用者場景:産品問題是在什麼情況下發生的
産品抱怨:使用者集中回報的産品缺陷,使用者對産品的主要抱怨是什麼?
競品分析:與競品對比的主要差距,産品哪些地方不如競品?
選擇對使用者體驗和銷售最有價值的産品改進方向,實作産品有效優化。
1、關注點
聚焦資源,主動讓顧客選擇,不讓顧客思考
1)關注點提及分析
2)判斷使用者關注點(四象限圖)
使用者産品需求分析:分析使用者對本品類産品使用的最主要功能性能要求
使用者購買因素分析:監測本品類産品使用者認知度對比關系
2、使用者抱怨
1)類型:
非投訴型抱怨:不會直接抱怨但是會向其他人傳遞不好
投訴型抱怨:産品的不好會直接回報回來
2)使用者抱怨分析:
使用者對産品的主要抱怨是什麼?
使用者集中回報的産品缺陷有哪些?
這些言論在哪些媒體出現?
2.1)不同次元的PSR和NSR
PSR=正面/(正+負)
NSR=負面/(正+負)
2.2)使用者抱怨實時監測分析(四象限圖)
3、應用場景
什麼人在什麼時間、地點,帶着什麼樣的情緒、動機,通過什麼行為來滿足什麼要求
這裡有四個因素:使用者(使用者所屬的群體、所帶有的角色标簽)、需求(核心)、行為(使用者采取什麼行為滿足需求)、情景
要時刻思考應用的意義,其實慢慢的又回歸到了産品經理的思路上來了,是以資料分析有時離不開産品思維,比如要思考:
誰是産品的目标使用者?他們的核心需求是什麼?
在特定場景下,是什麼讓他們決定使用或者放棄使用一款産品?
toB隻在乎用着順不順手
toC在乎多方面
每個環節都要有場景:
使用者場景梳理方法:
4.競品分析:
1)初步
找到競品top 3-5 核心1-2個
2)排除非競品:關聯詞相似度,話題讨論
3)判斷競争強度 各次元提及次數
4)案頭研究 價格
5)輿情指數分析:消費者情感偏好和讨論聲量判斷優劣勢建構四象限圖 橫坐标讨論聲量,縱坐标PSR
基本産品 | 優勢産品 |
小衆産品 | 劣勢産品 |
6)各次元進行抱怨度NSR分析
五、模型工程
根據RFM模型和NSR、PSR模型進行分析,這一點我也會單獨拎出來做出一個文章詳細寫一下
六、展示工程/資料可視化
工具可以用PowerBI,也可以用Python,Python還是很萬能的,而且python有很多現成的包,直接導入直接用,各種好看的分析圖都有,我将單獨寫一章介紹python的可視化分析
1. 資料标簽可視化
2. 例子(PowerBI):
2.1進行資料的拆分(年月日、性别等等)
2.2資料分組
2.3資料的篩選
例如:性别統計
3. 地域統計、自我認知詞雲
4. 頁面大小的調整
5. 标簽資料的可視化
四級标簽的可視化 設定二級标簽的篩選器
詞雲圖可以設定不顯示某些詞
最後最重要的就是講故事
具體怎麼講,我打算放在後面的文章去說明,因為這篇文章就是一個小概括而已,也是大概梳理了一下近期學習的思路。
作為toB端的産品經理有些人覺得着實是沒必要研究這些,我一開始也是這樣覺得,但是我越學習就會越發現資料分析的思路其實是離不開産品的思維,産品的思維也能從資料分析的思路中得到靈感加以開闊,因為我們的目标不是一直做産品經理,而是去到更大的平台更高的地方去看這個世界。沒有人一拿起來這件東西馬上就能上手去做的,除非天賦異禀,但是大多數人都是在一步步泥濘中摸爬滾打過來的,我是想說,接受自己平凡,并不斷向前,就已經赢過絕大多數的人了,因為總是會有人自命不凡。