sas 逻辑回归

作者: 放浪不羁27752601
来源: 51数据库
2020-09-22

变量准备。对模型效果提升非常非常重要！我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量，可以贯穿整个建模过程。某名人说过花80%的时间不为过。

　　工作刚好积累些，希望有帮助。

第二步，变量准备。对模型效果提升非常非常重要！我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量，可以贯穿整个建模过程。某名人说过花80%的时间不为过。

第三步，除了chi-square test和iv值还有变量相关性。相关性太严重会违背独立假设，当然做预测的话违背可以原谅。但变量太多的时候共线性严重可能导致软件报错进行不下去（猜题主用的sas）。此外business sense常常起决定性作用。比如客户关系管理中，如果模型显示年龄贡献度很低，一般还是会把它放进去。

第四步，检验的参数。
1) c统计量，roc曲线以下的面积，也叫auc（area under curve）。在应用较成熟的领域比如信用卡评分行业有稍微形成共识——大于或等于0.75——认为行为评分模型是可靠的。但针对marketing等其他领域的数据，这个阈值可以商榷。
2) gini系数，可以同c统计量转化，g=2c-1。
3) 提升图（lift chart/gain table），其他名词累积提升图/洛仑兹曲线/收益曲线说的几乎同一种东西。通过和随机选择的效果比较模型好坏，随机就是不用模型。如果对目标数据已经建好了一小撮模型，可以画不同模型的提升效果来比较选最佳。
4) ks，响应变量0-1的曲线对比，二者之差画条线就是ks曲线。它的意义是模型把0和1区分开的能力。又比如marketing，前25%的人是预测的响应客户群，对这一群体进行精准营销既有效果又省成本。20～40参考一下就行。

最后，模型和参数实际意义还是要想想吧。很多人觉得logistic regression太简单，却连解释都不做，只一味看参数。看看出来的odds ratio和probability，既能给大众解释又不忘建模初衷。

感觉有图更清楚，几个不错的中文博客，其他资料不一而足

　　工作刚好积累些，希望有帮助。

第二步，变量准备。对模型效果提升非常非常重要！我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量，可以贯穿整个建模过程。某名人说过花80%的时间不为过。

第三步，除了chi-square test和IV值还有变量相关性。相关性太严重会违背独立假设，当然做预测的话违背可以原谅。但变量太多的时候共线性严重可能导致软件报错进行不下去（猜题主用的SAS）。此外business sense常常起决定性作用。比如客户关系管理中，如果模型显示年龄贡献度很低，一般还是会把它放进去。