2017-CCF-BDCI-Enterprise
2017-CCF-BDCI-Enterprise copied to clipboard
您好,请教一个关于特征偏离的问题
您好,请问为什么特征偏离会对比赛数据结果提升比较大呢?groupby_list是根据什么来确定呢?
感谢您的分享!
为什么特征偏离会对比赛数据结果提升比较大呢?
我认为有两点原因:
- 偏离值特征可以表征当前样本对于分组的偏离距离,这个是具备可解释性的和现实意义的。举个例子:我们计算了当前样本的注册资本对于均值的偏离值特征,这个可以表征为这个公司对于当前领域中的平均注册资本的距离,这个距离越大(正方向)说明这个公司刚起步时的资本实力是越强的。
- 偏离值特征对于我们先前构建的特征空间是新颖的,也就是说之前的特征组合起来并不能表达偏离值特征。对于模型来说,也就是学到了新的信息,分类能力得到了提升。
groupby_list是根据什么来确定呢?
这个是基于经验确定的,并没有明确的方法。
好的,谢谢您~ 中午回复邮件时记错了,刚刚已star~