R語言邏輯回歸預測分析付費使用者

2021-05-12 13:57:50

原文連結：http://tecdat.cn/?p=967

對于某企業新使用者，會利用大資料來分析該使用者的資訊來确定是否為付費使用者，弄清楚使用者屬性，進而針對性的進行營銷，提高營運人員的辦事效率。

對于付費使用者預測，主要是思考收入由哪些因素推動，再對每個因素做預測，最後得出付費預測。這其實不是一個财務問題，是一個業務問題。

流失預測。這方面會偏向于大額付費使用者，提取額特征向量運用到應用場景的使用者流失和預測裡面去。

方法

回歸是一種極易了解的模型，就相當于y=f(x)，表明自變量x與因變量y的關系。最常見問題有如醫生治病時的望、聞、問、切，之後判定病人是否生病或生了什麼病，其中的望聞問切就是擷取自變量x，即特征資料，判斷是否生病就相當于擷取因變量y，即預測分類。

問題描述

我們嘗試并預測使用者是否可以根據資料中可用的人口資訊變量使用邏輯回歸預測月度付費是否超過 50K。

在這個過程中，我們将：

1.導入資料2.檢查類别偏差3.建立訓練和測試樣本4.建立logit模型并預測測試資料5.模型診斷

檢查類偏差

理想情況下，Y變量中事件和非事件的比例大緻相同。是以，我們首先檢查因變量ABOVE 50K中的類的比例。

0 1 
24720 7841

顯然，不同付費人群比例有偏差。是以我們必須以大緻相等的比例對觀測值進行抽樣，以獲得更好的模型。

建構Logit模型和預測

确定模型的最優預測機率截止值預設的截止預測機率分數為0.5或訓練資料中1和0的比值。但有時，調整機率截止值可以提高開發和驗證樣本的準确性。InformationValue :: optimalCutoff功能提供了找到最佳截止值，減少錯誤分類錯誤。

optCutOff <-optimalCutoff(testData$ABOVE50K, predicted)[1] => 0.71

模型診斷

錯誤分類錯誤

錯誤分類錯誤是預測與實際的不比對百分比。錯誤分類錯誤越低，模型越好。

misClassError(testData$ABOVE50K, predicted, threshold = optCutOff)

[1] 0.0892

ROC曲線

ROC曲線指受試者工作特征曲線 / 接收器操作特性曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續變量的綜合名額,是用構圖法揭示敏感性和特異性的互相關系，它通過将連續變量設定出多個不同的臨界值，進而計算出一系列敏感性和特異性，再以敏感性為縱坐标、（1-特異性）為橫坐标繪制成曲線，曲線下面積越大，診斷準确性越高。在ROC曲線上，最靠近坐标圖左上方的點為敏感性和特異性均較高的臨界值。

上述型号的ROC曲線面積為89％，相當不錯。

一緻性

簡單來說，在1-0 的所有組合中，一緻性是預測對的百分比，一緻性越高，模型的品質越好。

$Concordance [1] 0.8915107 $Discordance [1] 0.1084893 $Tied [1] -2.775558e-17 $Pairs [1] 45252896

混淆矩陣

confusionMatrix(testData$ABOVE50K, predicted, threshold = optCutOff)

0 1 0 18849 1543 1 383 810

結論

R語言邏輯回歸預測分析付費使用者

原文連結：http://tecdat.cn/?p=967

繼續閱讀

Aspera/FTP下載下傳SRA/fastq檔案後根據樣本資訊進行批量重命名

bam格式轉換為Fastq/Fasta格式bam格式轉換為Fastq/Fasta格式

非參數統計分析

R語言實戰 - 基本統計分析（1）- 描述性統計分析

跟着Cell學單細胞轉錄組分析(十二):轉錄因子分析

R語言|繪制三維圖

資料的歸一化（Normalization）、标準化（Standardization）

給新手程式員的幾個建議

R語言| 中介效應分析，Mediation包和BruceR包，循環Process函數

京東大佬整理的億級流量架構核心技術，助力智能時代，成就非凡前言目錄簡介書簽展示後記

【R語言】GARCH模型的應用一、資料來源二、資料分析三、模型建立四、模型優化五、結論六、實作代碼七、參考資料

Python TensorFlow循環神經網絡RNN-LSTM神經網絡預測股票市場價格時間序列和MSE評估準确性

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

Lagrange插值的R語言實作

R語言-相關性分析函數

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化