sas 逻辑回归
- 作者: 放浪不羁27752601
- 来源: 51数据库
- 2020-09-22
变量准备。对模型效果提升非常非常重要!我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量,可以贯穿整个建模过程。某名人说过花80%的时间不为过。
工作刚好积累些,希望有帮助。
第二步,变量准备。对模型效果提升非常非常重要!我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量,可以贯穿整个建模过程。某名人说过花80%的时间不为过。
第三步,除了chi-square test和iv值还有变量相关性。相关性太严重会违背独立假设,当然做预测的话违背可以原谅。但变量太多的时候共线性严重可能导致软件报错进行不下去(猜题主用的sas)。此外business sense常常起决定性作用。比如客户关系管理中,如果模型显示年龄贡献度很低,一般还是会把它放进去。
第四步,检验的参数。
1) c统计量,roc曲线以下的面积,也叫auc(area under curve)。在应用较成熟的领域比如信用卡评分行业有稍微形成共识——大于或等于0.75——认为行为评分模型是可靠的。但针对marketing等其他领域的数据,这个阈值可以商榷。
2) gini系数,可以同c统计量转化,g=2c-1。
3) 提升图(lift chart/gain table),其他名词累积提升图/洛仑兹曲线/收益曲线说的几乎同一种东西。通过和随机选择的效果比较模型好坏,随机就是不用模型。如果对目标数据已经建好了一小撮模型,可以画不同模型的提升效果来比较选最佳。
4) ks,响应变量0-1的曲线对比,二者之差画条线就是ks曲线。它的意义是模型把0和1区分开的能力。又比如marketing,前25%的人是预测的响应客户群,对这一群体进行精准营销既有效果又省成本。20~40参考一下就行。
最后,模型和参数实际意义还是要想想吧。很多人觉得logistic regression太简单,却连解释都不做,只一味看参数。看看出来的odds ratio和probability,既能给大众解释又不忘建模初衷。
感觉有图更清楚,几个不错的中文博客,其他资料不一而足
工作刚好积累些,希望有帮助。
第二步,变量准备。对模型效果提升非常非常重要!我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量,可以贯穿整个建模过程。某名人说过花80%的时间不为过。
第三步,除了chi-square test和IV值还有变量相关性。相关性太严重会违背独立假设,当然做预测的话违背可以原谅。但变量太多的时候共线性严重可能导致软件报错进行不下去(猜题主用的SAS)。此外business sense常常起决定性作用。比如客户关系管理中,如果模型显示年龄贡献度很低,一般还是会把它放进去。
工作刚好积累些,希望有帮助。
第二步,变量准备。对模型效果提升非常非常重要!我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量,可以贯穿整个建模过程。某名人说过花80%的时间不为过。
第三步,除了chi-square test和iv值还有变量相关性。相关性太严重会违背独立假设,当然做预测的话违背可以原谅。但变量太多的时候共线性严重可能导致软件报错进行不下去(猜题主用的sas)。此外business sense常常起决定性作用。比如客户关系管理中,如果模型显示年龄贡献度很低,一般还是会把它放进去。
第四步,检验的参数。
1) c统计量,roc曲线以下的面积,也叫auc(area under curve)。在应用较成熟的领域比如信用卡评分行业有稍微形成共识——大于或等于0.75——认为行为评分模型是可靠的。但针对marketing等其他领域的数据,这个阈值可以商榷。
2) gini系数,可以同c统计量转化,g=2c-1。
3) 提升图(lift chart/gain table),其他名词累积提升图/洛仑兹曲线/收益曲线说的几乎同一种东西。通过和随机选择的效果比较模型好坏,随机就是不用模型。如果对目标数据已经建好了一小撮模型,可以画不同模型的提升效果来比较选最佳。
4) ks,响应变量0-1的曲线对比,二者之差画条线就是ks曲线。它的意义是模型把0和1区分开的能力。又比如marketing,前25%的人是预测的响应客户群,对这一群体进行精准营销既有效果又省成本。20~40参考一下就行。
最后,模型和参数实际意义还是要想想吧。很多人觉得logistic regression太简单,却连解释都不做,只一味看参数。看看出来的odds ratio和probability,既能给大众解释又不忘建模初衷。
感觉有图更清楚,几个不错的中文博客,其他资料不一而足
工作刚好积累些,希望有帮助。
第二步,变量准备。对模型效果提升非常非常重要!我指的是对变量的选择和形式的变换。动态地根据模型的反馈来构造变量,可以贯穿整个建模过程。某名人说过花80%的时间不为过。
第三步,除了chi-square test和IV值还有变量相关性。相关性太严重会违背独立假设,当然做预测的话违背可以原谅。但变量太多的时候共线性严重可能导致软件报错进行不下去(猜题主用的SAS)。此外business sense常常起决定性作用。比如客户关系管理中,如果模型显示年龄贡献度很低,一般还是会把它放进去。
推荐阅读
