2018-CCF-BDCI-China-Unicom-Research-Institute-top2
2018-CCF-BDCI-China-Unicom-Research-Institute-top2 copied to clipboard
统计特征
大佬能解释下,统计特征对于分类的帮助吗? 例如,total_fee中统计出现多的月付费,会对应某一个套餐? 另外,一般Cat和Num交互,会以cat为groupby的输入列,Num为统计列。大佬为什么会统计Cat和Num一起出现的次数?有什么特别的依据吗? 感谢!
这两个问题,可以从两个角度来理解: 第一,统计特征,是为了找到不同类别特征他们相似的地方; 第二,交叉,是为了找到两者交互在分类当中区别于其他的 不同交叉的地方。
懂了,就是寻找同标签的相同特征和不同标签的区别特征。 这种交互是暴力试出来的好,还是通过数据EDA/分析业务逻辑得到?
通过业务逻辑来推导,你看看上个月结转金额是不是有很多相同的地方,还有从EDA来理解也是可以的。
可是出账金额相同的,他们的size统计特征也相同,这不是重复特征了? 树的列抽样会更容易把相同套餐的id,预测为一类? 还是这个total_fee的size统计特征有其他的考量? 谢谢
举个很简单的例子:76的count 是10,36的count也是10,怎么会重复特征了呢
soga