DataCastle-Solution icon indicating copy to clipboard operation
DataCastle-Solution copied to clipboard

1st Place Solution for DataCastle-CashBus Competition

Results 6 DataCastle-Solution issues
Sort by recently updated
recently updated
newest added

希望能发一份这个数据可以吗?仅供自己学习,万分感激。

我在《解决方案》中看到,你们对类别特征编码,采用了One-Hot编码,但是在实际的代码中未见到对类别特征进行处理。 是这一块最后没有处理吗?还是没有提供这块的代码?关于类别特征你们最后是怎么考虑的?

想问下大神,是否在特征工程中考虑正负样本不均的问题?我用GBRT跑出来的第一个模型预测都是0.8以上的score,就没有是负类的

对原始特征中 1045 维 numeric 类型的特征从小到大进行排序,得到 1045 维排序特征。 这个排序是 同一个样本下横向比较的排序,还是同一个特征下,纵向比较的排序?

## 1.处理过程: 2.1我们将原始数值特征进行升序排序,将得到的rank作为新的特征。比如特征是15,10,2,100 ,排序后的新特征就是3,2,1,4。 2.2将原始特征等量划分到10个区间作为离散特征,每个新特征的取值就是1-10(可以等量或者等值,我们选择等量划分) 2.3计算每个样本离散特征1-10的数量,生成10个新的特征 2.4将特征进行两两交叉x*y x^2+y^2 1/x+1/y 等等,在生成特征的同时计算与标签列的皮尔逊相关系数保留topK特征(我们保留了1500个) 2.5类别特征进行one-hot处理 (哑变量) 2.6使用xgboost输出的特征重要性对特征进行选择 ## 2.问题 (1)2.1和2.2进行了rank和离散化,是否考虑特征之间的冗余问题?假如原始特征a1,离散化的特征a2,排序后的特征a3,如果a1,a2,a3,在2.6中重要性排在前3位,是否需要考虑只保留其中一个? (2)案例中是否有考虑特征之间的冗余情况,即因子特征,如由a,b特征产生了c特征,这个时候a,b特征是否需要丢弃掉,如2.4步 (3)xgboost是否会自己忽略表现差的特征,假如有1500维的特征,后面的1000维重要性很低,模型是否会忽略,即一般是将1500维仍进去跑,还是只取前500维? (4)xgboost最终的特征数保留在什么数量级比较合适,如100维,还是1000维等(即2.6中根据重要性选择,一般保留多少维的特征) 谢谢