2018-CCF-BDCI-China-Unicom-Research-Institute-top2 统计特征

大佬能解释下，统计特征对于分类的帮助吗？例如，total_fee中统计出现多的月付费，会对应某一个套餐？另外，一般Cat和Num交互，会以cat为groupby的输入列，Num为统计列。大佬为什么会统计Cat和Num一起出现的次数？有什么特别的依据吗？感谢！

Nov 19 '18 08:11 Jun2Hou

这两个问题，可以从两个角度来理解：第一，统计特征，是为了找到不同类别特征他们相似的地方；第二，交叉，是为了找到两者交互在分类当中区别于其他的不同交叉的地方。

Nov 22 '18 08:11 PandasCute

懂了，就是寻找同标签的相同特征和不同标签的区别特征。这种交互是暴力试出来的好，还是通过数据EDA/分析业务逻辑得到？

Nov 22 '18 08:11 Jun2Hou

通过业务逻辑来推导，你看看上个月结转金额是不是有很多相同的地方，还有从EDA来理解也是可以的。

Nov 22 '18 09:11 PandasCute

可是出账金额相同的，他们的size统计特征也相同，这不是重复特征了？树的列抽样会更容易把相同套餐的id，预测为一类？还是这个total_fee的size统计特征有其他的考量？谢谢

Nov 22 '18 09:11 Jun2Hou

举个很简单的例子:76的count 是10,36的count也是10，怎么会重复特征了呢

Nov 22 '18 09:11 PandasCute

soga

Nov 22 '18 09:11 Jun2Hou

2018-CCF-BDCI-China-Unicom-Research-Institute-top2 2018-CCF-BDCI-China-Unicom-Research-Institute-top2 copied to clipboard