第2章 資料分析方法論
2.1資料分析的基本方法
資料分析有法可循,在分析資料時使用分析方法可以快速有效地分析資料,從資料中擷取資訊。常用的分析方法有對比法、拆分法、交叉法、降維法、增維法、名額法和圖形法,根據業務場景選擇一種或一種以上的分析方法可以讓分析更加高效。
2.1.1對比法
對比法是最基本的分析方法也是資料分析的“先鋒軍”,分析師在開展分析時首先使用對比法,可以快速發現問題。對比法分為橫向和縱向兩個方向。
橫向對比是指跨次元的對比,比如在分析企業銷售業績的時候,将不同行業的企業銷售業績一起進行對比,這樣可以知道某家企業在整個市場的地位。如中國的500強企業排行榜單,就是将不同行業的企業産值進行對比。
縱向對比是指在同一個次元的對比,比如基于行業為次元,鋼鐵行業的企業排行榜單;比如基于時間為次元,将今天的銷售業績和昨天、上個星期同一天進行對比,可以知道今天的銷售業績的情況。
例:小李是某天貓營運,剛接手一家新網店,欲确定該店鋪的主營品類,已知該店鋪經營A,B,C,D四個品類。
解:通過對比A,B,C,D四個品類的天花闆,要做市場規模則選擇天花闆高的品類,要便于生存則選擇天花闆低的品類。
A品類 | B品類 | C品類 | D品類 |
1580萬元 | 780萬元 | 605萬元 | 1685萬元 |
表2-1
圖2-1
2.1.2拆分法
拆分法是最常用的分析方法之一,在許多領域應用非常廣泛,杜邦分析法就是拆分法的經典應用。拆分法是将某個問題拆解成若幹個子問題,通過研究該若幹子問題進而解決問題。比如在研究銷售業績下降問題時,可以将銷售業績問題拆分成轉化率、客單價和訪客數這三個子問題,通過分析這三個子問題進而解決銷售業績問題。
例:某店鋪的銷售額大幅下降,營運欲找出銷售額下降的原因。
日期 | 訪客數 | 轉化率 | 客單價 | 銷售額 |
周一 | 1000 | 3.5% | 100 | 3500 |
周日 | 2000 | 3.4% | 100 | 6800 |
上周一 | 2500 | 3.5% | 100 | 8750 |
表2-2
解:銷售額下降的問題可拆分成三個子問題,分别是轉化率、客單價和訪客數的變化,通過表2-2結合對比法發現主要是訪客數的變化引起的銷售額大幅下降。可再進一步拆分訪客數,訪客數可分為付費訪客數和免費訪客數,對問題的原因進一步剖析,直到找到問題的根源。
圖2-2
2.1.3排序法
排序法是基于某一個路徑成本的大小,将觀測值遞增或遞減的排列,每一次排列隻能基于某一個路徑成本。排序法是從對比法中衍生的一種常用方法,百度搜尋風雲榜、淘寶排行榜等業内知名榜單就是重度采用排序法的産品,通過排序後的榜單,讓使用者快速擷取目标價值資訊。
例:某營運收集了數個品類的資料,如表2-3所示,通過排序法列出品類榜單。
品類 | 交易指數 | 線上産品數 |
T恤 | 20178 | 55135570 |
連衣裙 | 43551 | 21868084 |
褲子 | 22664 | 41053642 |
襯衫 | 19592 | 11556930 |
表2-3
解:排序法隻能基于某一個度量進行排序,表3中有兩個度量,是以可以做出兩個表單。
表2-4為基于交易指數的榜單,排名越靠前代表該品類的市場規模越大。
排名 | 品類 | 交易指數 | 線上産品數 |
1 | 連衣裙 | 43551 | 21868084 |
2 | 褲子 | 22664 | 41053642 |
3 | T恤 | 20178 | 55135570 |
4 | 襯衫 | 19592 | 11556930 |
表2-4
表2-5為基于産品數的榜單,排名越靠前代表該品類的市場競争越大
排名 | 品類 | 交易指數 | 線上産品數 |
1 | T恤 | 20178 | 55135570 |
2 | 褲子 | 22664 | 41053642 |
3 | 連衣裙 | 43551 | 21868084 |
4 | 襯衫 | 19592 | 11556930 |
表2-5
2.1.4交叉法
交叉法是對比法和拆分法的結合,是将有一定關聯的兩個或以上的次元和路徑成本排列在統計表内進行對比分析,在小于等于三維的情況下可以靈活使用圖表進行展示。當次元大于三維時選用統計表展示,此時也稱之為多元分析法。比如在研究市場定價時,經常将産品特征和定價作為次元,銷售額作為路徑成本進行分析。
例:有以下資料,利用交叉法分析不同性别的差異
性别 | 品類 | 消費金額 |
男 | 零食 | 68 |
男 | 耳機 | 180 |
女 | 零食 | 155 |
女 | 耳機 | 42 |
表2-6
解:将表2-6轉變成二維交叉表,如表2-7所示,通過表2-7可以直覺地觀察到男性和女性使用者在消費偏好上的差異,男性更願意在耳機上消費,女性則更願意在零食上消費。
性别 品類 | 零食 | 耳機 |
男 | 68 | 180 |
女 | 155 | 42 |
表2-7
2.1.5降維法
降維法是在資料集字段過多時,分析幹擾因素太多,通過找到并分析核心名額可以提高分析精度,或者通過主成分分析、因子分析等統計學方法将高維轉變成低維。比如在分析店鋪資料時,根據業務問題的核心提取主要的兩到四個核心名額,進行分析。
例:根據以下字段評估店鋪的綜合情況
轉化率 | 銷售額 | 客單價 | 訪客數 | 動銷率 | 連帶率 | 好評率 | 糾紛率 | 上新率 |
解:對名額進行分類,将店鋪的評估分成産品營運能力、店鋪獲客能力和店鋪服務能力。
反映店鋪産品營運能力的名額有:
動銷率 | 連帶率 | 上新率 |
反映店鋪獲客能力的名額有:
轉化率 | 銷售額 | 客單價 | 訪客數 |
反映店鋪服務能力的名額有:
好評率 | 糾紛率 |
基于每個能力次元下的名額,綜合評估出每個能力的分數。
可使用資料歸一化[1]的方法或者熵值法[2]計算分數,達到綜合評估的目的。
2.1.6增維法
增維法是在資料集的字段過少或資訊量不足時,為了便于業務人員分析,通過計算衍生出更加直覺的名額。比如在分析關鍵詞時,将搜尋人氣除以商品數量得到一個新的名額,定義為關鍵詞的競争指數。
例:計算關鍵詞的競争度,基于業務經驗,競争度=搜尋人氣*點選率*支付轉化率÷線上商品數,得到的名額為正名額,數值越大越好。
關鍵詞 | 搜尋人氣 | 點選率 | 線上商品數 | 支付轉化率 | 競争度 |
A | 32,914 | 152.95% | 165,118 | 6.92% | 0.021 |
B | 11,736 | 132.03% | 3,199 | 3.99% | 0.193 |
C | 10,274 | 162.75% | 55,774 | 8.55% | 0.026 |
D | 9,245 | 222.64% | 4,198 | 3.71% | 0.182 |
E | 7,977 | 138.58% | 23,718 | 6.89% | 0.032 |
表2-8
2.1.7名額法
名額法是分析的基本方法之一,通過彙總值、平均值、标準差、等一系列的統計名額研究分析資料。名額法更适合用于多元的資料。
例:表2-9是淘寶搜尋某關鍵詞按人氣排名前5的商品資料,通過名額法描述各個度量。
排名 | 售價 | 銷售額 | 評價人數 | DSR_物流分 | DSR_描述分 | DSR_服務分 |
1 | 680 | 115600 | 151 | 4.61 | 4.74 | 4.76 |
2 | 3680 | 629280 | 16 | 4.98 | 4.98 | 4.98 |
3 | 2180 | 372780 | 902 | 4.95 | 4.95 | 4.96 |
4 | 2180 | 374960 | 2363 | 4.92 | 4.93 | 4.94 |
5 | 2199 | 380427 | 958 | 4.95 | 4.97 | 4.95 |
表2-9
使用名額法描述度量後的結果,如表2-10所示。
排名 | 售價 | 銷售額 | 評價人數 | DSR_物流分 | DSR_描述分 | DSR_服務分 |
計數 | 5 | 5 | 5 | 5 | 5 | 5 |
缺失值 | ||||||
均值 | 2184 | 374609 | 878 | 4.88 | 4.91 | 4.92 |
彙總 | 10919 | 1873047 | 4390 | 24.41 | 24.57 | 24.59 |
标準差 | 949 | 162469 | 835 | 0.14 | 0.09 | 0.08 |
表2-10
2.1.8圖形法
圖形法是分析的基本方法之一,通過柱形圖、折線圖、散點圖等一系列的統計圖形直覺地研究分析資料。圖形法适合用于低維的資料。
例:表2-11淘寶搜尋某關鍵詞按人氣排名前220的商品資料,通過圖形法分析這些售價的分布
排名 | 售價 | 銷售額 | 評價人數 | DSR_物流分 | DSR_描述分 | DSR_服務分 |
1 | 680 | 115600 | 151 | 4.61 | 4.74 | 4.76 |
2 | 3680 | 629280 | 16 | 4.98 | 4.98 | 4.98 |
3 | 2180 | 372780 | 902 | 4.95 | 4.95 | 4.96 |
…… | …… | …… | …… | …… | …… | …… |
220 | 150 | 547800 | 33206 | 4.75 | 4.63 | 4.74 |
表2-11
圖2-3是基于售價分組後繪制的直方圖,可以直覺地觀察各個價格區間包含商品的個數,商品售價分布主要集中在[118,588],[1058,1998]兩個區間。
圖2-3
原文釋出時間為:2018-08-23
本文作者:陳海城
本文來自雲栖社群合作夥伴“零一”,了解相關資訊可以關注“零一”。