DataCastle-Solution issues

你好，目前在学习你的这份分享的代码，运行rank.py时没有features_type.csv文件

希望能发一份这个数据可以吗？仅供自己学习，万分感激。

PGaga

类别特征编码的处理

我在《解决方案》中看到，你们对类别特征编码，采用了One-Hot编码，但是在实际的代码中未见到对类别特征进行处理。是这一块最后没有处理吗？还是没有提供这块的代码？关于类别特征你们最后是怎么考虑的？

guijh

想问下大神，是否在特征工程中考虑正负样本不均的问题？

1

想问下大神，是否在特征工程中考虑正负样本不均的问题？我用GBRT跑出来的第一个模型预测都是0.8以上的score,就没有是负类的

Tongzhenguo

你好，你在解决方案里面讲到的排序特征，不是特别理解

4

对原始特征中 1045 维 numeric 类型的特征从小到大进行排序,得到 1045 维排序特征。这个排序是同一个样本下横向比较的排序，还是同一个特征下，纵向比较的排序？

buptlishantao

## 1.处理过程： 2.1我们将原始数值特征进行升序排序，将得到的rank作为新的特征。比如特征是15，10，2，100 ，排序后的新特征就是3，2，1，4。 2.2将原始特征等量划分到10个区间作为离散特征，每个新特征的取值就是1-10（可以等量或者等值，我们选择等量划分） 2.3计算每个样本离散特征1-10的数量，生成10个新的特征 2.4将特征进行两两交叉x*y x^2+y^2 1/x+1/y 等等，在生成特征的同时计算与标签列的皮尔逊相关系数保留topK特征（我们保留了1500个） 2.5类别特征进行one-hot处理（哑变量） 2.6使用xgboost输出的特征重要性对特征进行选择 ## 2.问题（1）2.1和2.2进行了rank和离散化，是否考虑特征之间的冗余问题？假如原始特征a1，离散化的特征a2，排序后的特征a3，如果a1，a2，a3，在2.6中重要性排在前3位，是否需要考虑只保留其中一个？（2）案例中是否有考虑特征之间的冗余情况，即因子特征，如由a，b特征产生了c特征，这个时候a,b特征是否需要丢弃掉，如2.4步（3）xgboost是否会自己忽略表现差的特征，假如有1500维的特征，后面的1000维重要性很低，模型是否会忽略，即一般是将1500维仍进去跑，还是只取前500维？（4）xgboost最终的特征数保留在什么数量级比较合适，如100维，还是1000维等（即2.6中根据重要性选择，一般保留多少维的特征）谢谢

winfieldcw