lancexiong
lancexiong
> Statcompute的分箱算法是我写的了。我在GitHub里又加了几个改进版。大家不妨试一下。如果有改进建议,希望告诉我。谢谢。 你好,请问下你写的分享算法原理是什么呢?我看到有的mono_bin的分箱算法要计算spearman相关系数,这是为什么呢?
> 这不是挺明显的吗?单调的必要条件就是SPEARMAN的绝对值必为一。 那为什么不用pearson相关系数要用spearman相关系数,这里的单调指的是随着预测变量比如年龄的增加,违约率(bad_rate)是要单调上升或者下降,但是最后不是要保证woe值是单调的吗?如果保证bad_rate单调就一定能使得woe值也是单调的吗? 尝试了下对逾期数据中的年龄进行分箱,发现一个问题就是当我用mono_bin设定箱数是20和10开始缩小分箱数量的时候,发现一个分箱是17,一个分箱是9。那究竟分箱是多少才算正确?
> 我要的是单调而不是线性单调,Pearson太严格了,所以不是我要的。 > 你关于WOE和BAD_RATE单调的问题,建议你自己动手做一下。 > 至于你最后的那个问题,我已经有个升级版了。看一下 > https://github.com/statcompute/MonotonicBinning 。 > 谢谢。 请问您实现的那4种分箱方法,manual_bin,qtl_bin,bad_bin,iso_bin的具体原理是什么呢?有没有相关资料参考下,因为R代码没有注释,不怎么能看懂,不知是否有python版本的?