天天看點

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

作者:資料分析不是個事兒

本文則針對性地講講資料分析整個流程最關鍵的階段: 資料處理與分析階段。該階段我分成了三塊:資料采集、資料處理、資料分析。

因為資料采集、處理、分析都圍繞着“資料”進行,對海量或雜亂資料進行處理分析,從中找出痛點,洞察問題。

資料采集

該處的資料采集指的是擷取分析所需要的資料,一般可以從内部資料、外部資料兩個方向擷取。

1. 内部資料

  • 直接擷取

直接擷取的前提是,公司進行了資料倉庫的建設,已為決策分析提供了所有類型資料支援。該部分内容在之前的文章中也提到過,但是在這裡更加細化的做了點補充。

直接擷取就是指資料庫中有現成的表可以直接擷取到所需的資料,不需要分析師再在sql上做複雜的處理。

公司一般會将資料分為ods、dwd、dwb/dws層資料。

① ods層:明細資料。數倉不做任何資料處理,直接原封不動的将資料同步到該庫上。為dw層的資料加工作準備。

②dwd層:明細資料。該層資料已在ods層上對資料做了清洗操作,比如去除空值、髒資料等。

③dwb/dws層:聚合資料。主要對ods/dwd層的資料做些輕度彙總,會涉及較多業務名額資料。如根據ods/dwd層的明細資料計算出七日複購率、周同期對比資料、毛利率等名額供分析師直接查詢使用。

一般情況下,分析可以直接從dwb/dws層調取現成的名額資料進行分析,特殊情況下也可以從dwd層寫複雜sql的方式計算成所需的資料。

  • 重新落表擷取

前提是dwb/dws層沒有現成的資料可以直接擷取,哪怕自己寫代碼可以從dwd層擷取,也需要寫很複雜的代碼。此時,請數倉協助落成聚合表再去調取資料。

重新落表一般會涉及人力資源的協調,需求的溝通。分析師擔當業務方和數倉之間的橋梁,将業務方的需求理清楚之後,自身又作為數倉的需求方對數倉提需求。

2. 外部資料

當分析的内容内部資料無法滿足時,或者不夠全面時,此時需要借助于外部資料來輔助分析。

  • 行業報告資料

比如艾瑞網、極光大資料、阿裡研究所、199IT網際網路資料中心等都會時不時的發一些行業分析報告。整個行業的資料公司内部是無法擷取的,是以可以從一些行業分析報告入手。

  • 問卷采集

比如我們需要擷取使用者的一些①主觀想法:喜歡我們産品的原因是?我們産品最吸引您的點是?您覺得我們産品最應該改進的點是?②對競品的行為:您在xx場景下更願意使用A産品、B産品還是C産品③使用者習慣的場景:您在什麼場景下更願意使用xx産品?等

通過問卷資料擷取一些産品中無法獲得的資料,輔助分析。

  • 宏觀資料

有時候我們分析的某個名額有時候也會受到宏觀政策的影響,比如宏觀上某項名額上調了xx,對我們的業務會産生怎樣的影響。

資料處理

對分析師而言,這步需要分析師将資料根據腦中的分析架構處理成所需要的資料。

1. 處理内容

會涉及資料異常值處理、缺失值處理、資料轉換、資料聚合、資料分組歸類以及資料準确性的校驗,為下一步的資料分析奠定好基礎。

井井有條的資料更有利于分析:

  • 剔除無效資料,比如異常值、缺失值、重複值等。
  • 考慮清楚資料聚合的次元,比如時間上、地域上、使用者上、商品上等按照什麼次元聚合。
  • 做好資料聚合的處理,比如需要借助開窗函數,是否需要去重計數,是否需要累積計數等;

2. 資料驗證

資料采集到之後,還要做好資料驗證,目的是確定資料準确性,切忌拿到資料立馬動手分析。

從驗證人員來看:

  • 自身多方驗證。
  • 初始先自身驗證一番,與現有報表中已有資料進行對比,觀察是否一緻。
  • 與需求方協同驗證。
  • 資料調取之後先出一份資料表,提供給需求方共同驗證。不過分析師接了需求,保證資料準确性是基本要素,一般情況下需求方并不會協同驗證。前提是,無現有資料可供對比查驗,可将資料先提供給需求方過一眼,確定資料準确無誤。

從驗證方式來看:

  • 定性驗證
  • 通過經驗或邏輯推理,主觀判斷該資料是否符合經驗或正常邏輯,比如你取到的某個商品的gmv比整個品類的gmv還要大,就不符合正常邏輯,肯定有誤。
  • 定量驗證
  • 依據統計方式,計算出具體的名額,多方交叉驗證。

資料分析

資料分析方法很多,網上有很多資料,這裡就講一下其中比較常用的幾種分析方法。

1. 漏鬥分析

漏鬥分析是資料分析中比較常見的分析模型。采取漏鬥的方式直覺的表示業務從起點到終點的各個環節的轉化情況,以便找出有問題的環節,針對性的優化。

如下圖,展示了使用者支付場景的轉化率:使用者從打開app到完成支付的過程。分為進入首頁→進入商詳頁→加入購物車→送出訂單→支付完成,直覺分析每個重要環節的轉化率。以最直覺最簡單的方式反映出每個關鍵環節的轉化率,洞察主要問題所在。

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

2. RFM模型

RFM模型主要用來衡量使用者價值,做使用者分群,比如區分出低價值使用者、高價值使用者、忠誠使用者等使用者群體。

R:使用者最近一次消費距今時間(Recency)

F:使用者在最近時間段内的消費頻次(Frequency)

M:使用者在最近時間段内的消費金額(Monetary)

這裡用一個比較簡單的例子講下:

先對R、F、M三個值進行分層并賦予權重(以下資料純屬虛構,分層時根據實際情況)。

比如使用者最近一次消費距今時間7天以下的打為5分,8-14天的打為4分......以此類推。分數高的表示價值性比較高,分數低的表示價值性比較低。

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

然後調取出每個使用者R、F、M值,填入“按照均值處理前”列中。

比如下圖中,使用者“111113”最近一次消費距今時間在7天以下,則R為5,在最近時間段内的消費頻次在6-10之間,則F為2,在最近時間段内的消費金額在1001-2000之間,則M為2。

再将每個使用者的R、F、M值與均值對比,大于均值填充1,小于均值填充0,填充于”按照均值處理後“列中。

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

最後将“按照均值處理後”的資料參照下圖模型表(下圖不是計算出來的,是比較常用的标準),比對出使用者類型。

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

給使用者比對之後的使用者價值類型如下

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

3.波士頓矩陣

波士頓矩陣不少人在大學期間學過,工作中也是比較實用的。可通過波士頓矩陣分析公司的産品結構,發現痛點,為是否需要及時調整戰略目标,以及判斷産品的資源配置設定是否合理提供了資料支援。

波士頓矩陣有以下4種結構類型:

  • 明星産品:成長期。該産品在市場上占有比較大的份額,且處于高速增長階段。未來發展為金牛産品的可能性比較大。此時抓住機會擴大投資,提升競争優勢。如圖中的蜜桔、香蕉、蘋果。
  • 金牛産品:成熟期。産品已較為成熟,增長前景有限。穩定發展,盡量維持好目前市場佔有率。如圖中的西瓜、櫻桃。
  • 問題産品:導入期。高速增長卻市場佔有率并不高。說明此産品雖然高速增長,但并未及時開拓市場,營銷存在問題。如圖中的猕猴桃、荔枝。
  • 瘦狗産品:衰退期。既市場佔有率不高,又增速緩慢,基本可以淘汰,将此資源轉而投資給其他更有利的産品。如圖中的草莓、楊桃、哈密瓜。
3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

4.帕累托分析

帕累托分析就是“二八法則”。

“二八法則”認為80%的财富掌握在20%的人手裡,應用到業務中就是,80%的營收在20%的産品裡,同理,我們應該花80%的時間内在這20%的産品上。也就是說,寶貴的時間與資源應該用在刀刃上。

如下圖:展示了每個品類的銷售額,通過銷售額計算出銷售額累積值,進而算出累積百分比。

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

再通過銷售額和累積百分比畫出帕累托圖,如下。

共15種品類,其中7個品類貢獻了80%的銷售額,占比46.67%,也就是說46.67%的商品為公司帶來了80%的銷售額,并不符合二八定律,該公司并沒有強勢産品。

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

5.AARRR模型

AARRR模型是探索使用者增長的模型。分别對應使用者生命周期的5個環節:使用者擷取、使用者激活、使用者留存、使用者變現、推薦傳播。

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

6.關聯規則分析

關聯規則分析其實就是購物籃分析,就是通過挖掘使用者的消費行為資料,探索使用者的消費習慣,進而合理搭配商品,提升收益。

舉個簡單的例子,近30天共産生了10筆訂單(友善計算隻虛構了10筆),1代表訂單中包含該商品,0代表訂單中未包含商品,比如111112訂單,使用者沒有買蘋果,但買了香蕉(是否買了其他商品不考慮)。

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

其中購買了蘋果的訂單有6筆,購買了香蕉的有5筆,同時購買了蘋果和香蕉的有3筆。

則:

① 蘋果和香蕉組合的支援度

=同時購買了蘋果和香蕉的訂單數/總訂單數*100%

=3/10*100%

=30%

含義:同時購買蘋果和香蕉的機率有多大

② 蘋果對香蕉的置信度

=同時購買了蘋果和香蕉的訂單數/購買了蘋果的訂單數*100%

=3/6*100%

=50%

含義:購買了蘋果的使用者有多大機率會再買香蕉

③ 蘋果對香蕉的提升度

=蘋果對香蕉的置信度/購買香蕉的機率

=50%/(5/10)

=1

含義:購買蘋果對購買香蕉會産生正向影響還是負向影響還是無影響

此案例中計算的提升度是1,表示購買蘋果并不會對購買香蕉産生任何影響。

詳細解釋下:

若提升度=1:表示購買蘋果并不會對購買香蕉産生任何影響,因為在購買了蘋果的條件下去買香蕉的機率和直接買香蕉的機率是一樣的;

若提升度>1:表示購買蘋果對購買香蕉産生了正向影響,即購買蘋果很大可能也會買香蕉,因為在購買了蘋果的條件下去買香蕉的機率大于直接買香蕉的機率;

若提升度<1:表示購買蘋果對購買香蕉産生了負向影響,即購買蘋果很大可能就不會買香蕉,因為在購買了蘋果的條件下去買香蕉的機率小于直接買香蕉的機率;

這就是關聯規則分析,一般用以研究探索商品捆綁銷售,比如蘋果是否需要和香蕉在一起捆綁銷售,捆綁銷售收益是否會更大。

轉載/溜溜筆記說

資料分析圖譜分享

私信回複「圖譜」領取高清原圖!

3大資料分析闆塊,6個資料分析模型,快速搞懂資料分析流程

繼續閱讀