python 绘制lift曲线_模型评估 lift（提升）和gain(增益)

Recall (True Positive Rate，or Sensitivity) =true positive/total actual positive=d/c+d

2. PV+ (命中率，Precision, Positive Predicted Value) =正确预测到的正例数/预测正例总数

Precision (Positive Predicted Value, PV+) =true positive/ total predicted positive=d/b+d

3. Specificity(负例的覆盖率，True Negative Rate) =正确预测到的负例个数/实际负例总数

Specificity (True Negative Rate) =true negative/total actual negative=a/a+b

首先记我们valid数据中，正例的比例为pi1(念做pai 1)，在我们的例子中，它等于c+d/a+b+c+d=0.365。单独提出pi1，是因为有时考虑oversampling后的一些小调整，比如正例的比例只有0.001，但我们把它调整为0.365(此时要在SAS proc logistic回归的score语句加一个priorevent=0.001选项)。本文不涉及oversampling。现在定义些新变量：Ptp=proportion of true positives=d/a+b+c+d=(c+d/a+b+c+d)*(d/c+d) =pi1* Sensitivity，正确预测到的正例个数占总观测值的比例

Pfp=proportion of false positives=b/a+b+c+d= (a+b/a+b+c+d)*(b/a+b) = (1-c+d/a+b+c+d)*(1-a/a+b) = (1-pi1)*(1- Specificity) ，把负例错误地预测成正例的个数占总数的比例

Depth=proportion allocated to class 1=b+d/a+b+c+d=Ptp+Pfp，预测成正例的比例

PV_plus=Precision (Positive Predicted Value, PV+) = d/b+d=Ptp/depth，正确预测到的正例数占预测正例总数的比例

Lift= (d/b+d)/(c+d/a+b+c+d)=PV_plus/pi1，提升值，解释见下节。

以上都可以利用valid_roc数据计算出来：%let pi1=0.365;

data valid_lift;

set valid_roc;

cutoff=_PROB_;

Ptp=&pi1*_SENSIT_;

Pfp=(1-&pi1)*_1MSPEC_;

depth=Ptp+Pfp;

PV_plus=Ptp/depth;

lift=PV_plus/&pi1;

keep cutoff _SENSIT_ _1MSPEC_ depth PV_plus lift;

run;

先前我们说ROC curve是不同阈值下Sensitivity和1-Specificity的轨迹，类似，Lift chart是不同阈值下Lift和Depth的轨迹

Gains chart是不同阈值下PV+和Depth的轨迹

Lift

Lift = (d/b+d)/(c+d/a+b+c+d)=PV_plus/pi1)，这个指标需要多说两句。它衡量的是，与不利用模型相比，模型的预测能力“变好”了多少。不利用模型，我们只能利用“正例的比例是c+d/a+b+c+d”这个样本信息来估计正例的比例(baseline model)，而利用模型之后，我们不需要从整个样本中来挑选正例，只需要从我们预测为正例的那个样本的子集(b+d)中挑选正例，这时预测的准确率为d/b+d。

显然，lift(提升指数)越大，模型的运行效果越好。如果这个模型的预测能力跟baseline model一样，那么d/b+d就等于c+d/a+b+c+d(lift等于1)，这个模型就没有任何“提升”了(套一句金融市场的话，它的业绩没有跑过市场)。这个概念在数据库营销中非常有用，举个例子：

比如说你要向选定的1000人邮寄调查问卷(a+b+c+d=1000)。以往的经验告诉你大概20%的人会把填好的问卷寄回给你，即1000人中有200人会对你的问卷作出回应(response，c+d=200)，用统计学的术语，我们说baseline response rate是20%(c+d/a+b+c+d=20%)。

如果你现在就漫天邮寄问卷，1000份你期望能收回200份，这可能达不到一次问卷调查所要求的回收率，比如说工作手册规定邮寄问卷回收率要在25%以上。

通过以前的问卷调查，你收集了关于问卷采访对象的相关资料，比如说年龄、教育程度之类。利用这些数据，你确定了哪类被访问者对问卷反应积极。假设你已经利用这些过去的数据建立了模型，这个模型把这1000人分了类，现在你可以从你的千人名单中挑选出反应最积极的100人来(b+d=100)，这10%的人的反应率 (response rate)为60%(d/b+d=60%，d=60)。那么，对这100人的群体(我们称之为Top 10%)，通过运用我们的模型，相对的提升(lift value)就为60%/20%=3；换句话说，与不运用模型而随机选择相比，运用模型而挑选，效果提升了3倍。

上面说lift chart是不同阈值下Lift和Depth的轨迹，先画出来：symbol i=join v=none c=black;

proc gplot data=valid_lift;

plot lift*depth;

run; quit;

python 绘制lift曲线_模型评估 lift（提升）和gain(增益)

上图的纵坐标是lift，意义已经很清楚。横坐标depth需要多提一句。以前说过，随着阈值的减小，更多的客户就会被归为正例，也就是depth(预测成正例的比例)变大。当阈值设得够大，只有一小部分观测值会归为正例，但这一小部分(一小撮)一定是最具有正例特征的观测值集合(用上面数据库营销的例子来说，这一部分人群对邮寄问卷反应最为活跃)，所以在这个depth下，对应的lift值最大。

同样，当阈值设定得足够的小，那么几乎所有的观测值都会被归为正例(depth几乎为1)——这时分类的效果就跟baseline model差不多了，相对应的lift值就接近于1。

一个好的分类模型，就是要偏离baseline model足够远。在lift图中，表现就是，在depth为1之前，lift一直保持较高的(大于1的)数值，也即曲线足够的陡峭。

Gains

Gains (增益) 与 Lift (提升)相当类似：Lift chart是不同阈值下Lift和Depth的轨迹，Gains chart是不同阈值下PV+和Depth的轨迹，而PV+=lift*pi1= d/b+d(见上)，所以它们显而易见的区别就在于纵轴刻度的不同：symbol i=join v=none c=black;

proc gplot data=valid_lift;

plot pv_plus*depth;

run; quit;

python 绘制lift曲线_模型评估 lift（提升）和gain(增益)

上图阈值的变化，含义与lift图一样。随着阈值的减小，更多的客户就会被归为正例，也就是depth(预测成正例的比例，b+d/a+b+c+d)变大(b+d变大)，这样PV+(d/b+d，正确预测到的正例数占预测正例总数的比例)就相应减小。当阈值设定得足够的小，那么几乎所有的观测值都会被归为正例(depth几乎为1)，那么PV+就等于数据中正例的比例pi1了(这里是0.365。在Lift那一节里，我们说此时分类的效果就跟baseline model差不多，相对应的lift值就接近于1，而PV+=lift*pi1。Lift的baseline model是纵轴上恒等于1的水平线，而Gains的baseline model是纵轴上恒等于pi1的水平线)。显然，跟lift 图类似，一个好的分类模型，在阈值变大时，相应的PV+就要变大，曲线足够陡峭。

python 绘制lift曲线_模型评估 lift（提升）和gain(增益)

继续阅读

python 绘制lift曲线_二分类模型性能评价（R语言，logistic回归，ROC曲线，lift曲线，lorenz曲线）...