winfieldcw
Results
1
issues of
winfieldcw
## 1.处理过程: 2.1我们将原始数值特征进行升序排序,将得到的rank作为新的特征。比如特征是15,10,2,100 ,排序后的新特征就是3,2,1,4。 2.2将原始特征等量划分到10个区间作为离散特征,每个新特征的取值就是1-10(可以等量或者等值,我们选择等量划分) 2.3计算每个样本离散特征1-10的数量,生成10个新的特征 2.4将特征进行两两交叉x*y x^2+y^2 1/x+1/y 等等,在生成特征的同时计算与标签列的皮尔逊相关系数保留topK特征(我们保留了1500个) 2.5类别特征进行one-hot处理 (哑变量) 2.6使用xgboost输出的特征重要性对特征进行选择 ## 2.问题 (1)2.1和2.2进行了rank和离散化,是否考虑特征之间的冗余问题?假如原始特征a1,离散化的特征a2,排序后的特征a3,如果a1,a2,a3,在2.6中重要性排在前3位,是否需要考虑只保留其中一个? (2)案例中是否有考虑特征之间的冗余情况,即因子特征,如由a,b特征产生了c特征,这个时候a,b特征是否需要丢弃掉,如2.4步 (3)xgboost是否会自己忽略表现差的特征,假如有1500维的特征,后面的1000维重要性很低,模型是否会忽略,即一般是将1500维仍进去跑,还是只取前500维? (4)xgboost最终的特征数保留在什么数量级比较合适,如100维,还是1000维等(即2.6中根据重要性选择,一般保留多少维的特征) 谢谢