天天看點

制訂需求分析架構和分析計劃

明确好分析目标和需求後,針對業務的問題,要制訂詳細的分析規劃和分析計劃,精确地把控每一個環節的時間安排。

1、分析的目标轉化

再次明确目标,需要把目标轉化成可以量化的資料,比如我們的目标是提高整體的付費使用者數,具體政策是預測潛在付費使用者數,以及即将流失的付費使用者數,并且規劃一個大概需要挖掘的使用者數量的範圍。資料分析的核心目标,是如何通過資料科學的方法論來挖掘精準的潛在付費使用者。

2、分析的思路
  1. 确定問題類型

我們需要挖掘潛在的付費使用者,這屬于預測類别的問題,是以潛在付費使用者的挖掘主要會通過分類模型來預測。

  1. 模型選取

常見的分類模型有很多,如SVM、KNN、邏輯回歸等。我們的項目采用的分類模型是決策樹,因為決策樹更容易轉化為業務方可以了解的業務規則。

在實際工作中,經常會發現很多資料分析師,做了很多“高大上”的資料分析模型,也有很好的效果,但是很難解釋給業務方聽,業務方難以了解整個過程及結果,就很難讓模型效果落地,對業務産生實際的價值。

  1. 樣本選取

初步确定的模型建構的正負樣本的時間跨度是1個月,将活躍的使用者中,付費過和沒有付費過的使用者分别當作正負樣本。

在模型預測的過程中,正樣本通常指的是要預測的那個類别對應的樣本,反之就是負樣本。在分類模型訓練時,我們都需要正樣本、負樣本,以及兩種樣本所對應的特征。

  1. 特征選取

特征的選擇是模型搭建中非常重要的一個環節,好的特征選擇會大大提高模型的穩定性及預測的準确率。根據最開始和業務方的溝通,确定好可能與付費相關的行為特征和基礎屬性特征,作為決策樹模型的輸入特征,把這些特征都先列下來。

對于即将流失的使用者可以通過使用者的流失周期預測。确定好付費流失使用者的定義,并且和業務方确認這種定義,然後通過拐點法找到使用者的流失周期,再用流失周期确定即将要流失的使用者。一個使用者如果達到流失周期還沒有發生付費行為,那麼這種使用者基本就可以當作流失使用者。

3、分析的樣本

我們要預測潛在的付費使用者數,以及即将要流失的付費使用者數。因為潛在的付費使用者的付費率低,是以我們可以在月活躍的使用者中預測潛在的付費使用者。同樣,對于即将流失的使用者的圈選,也是通過一個月的付費使用者數,保證我們圈選的基數足夠大,否則圈選出來的使用者可能會太少。

如果圈選出來的使用者過少,後面用禮包或者優惠券觸達的使用者就會更少,到後面轉化成付費使用者的就非常少了,基本上對業務的目标沒有什麼幫助。是以在最開始的環節中,就需要思考和确定好數量,保證最後的轉化率。

4、項目風險思考

作為一個資料分析項目,我們需要在分析規劃中提前列出項目可能會面臨的風險點,以及我們大概可以采取的政策,這樣可以更好地把控一個項目的情況,避免後面手忙腳亂,不知道如何解決。

這個項目需要利用分類模型預測付費使用者數。因為使用者的付費資料非常少,進而導緻我們能拿到的正樣本(付費過的使用者)很少,這樣訓練出來的模型可能預測并不精準。處理這種情況一般有以下兩種方法。

  • 一種方法是可以擴充正樣本的數量,比如,我們可以跨度更長的時間提取,原來是從一個月内的活躍使用者中提取付費使用者數,如果太少了,就可以擴充到從3個月或者更長的時間周期去提取付費使用者數。
  • 另外一種方法,就是基于現在的正樣本,從正樣本資料中抽樣出一部分資料,然後把這部分資料加到原來的正樣本資料中去,這就有效擴充了正樣本的數量。
5、項目的落地價值
6、時間和資源的安排

繼續閱讀