DataCastle-Solution
DataCastle-Solution copied to clipboard
你好,你在解决方案里面讲到的排序特征,不是特别理解
对原始特征中 1045 维 numeric 类型的特征从小到大进行排序,得到 1045 维排序特征。
这个排序是 同一个样本下横向比较的排序,还是同一个特征下,纵向比较的排序?
同一维特征的比较
如果是这样的话,预测的时候,对于新来的样本,如何预测啊? 对于新来的单条样本再看他的rank,是不是会效率有问题?
这点我们没考虑,但是确实存在你说的问题,工程上可能不会这么做,一般做离散化吧
我能插一句吗?您刚说一般做离散化,看您代码中的离散化也是先做rank,后根据rank值平均离散化的。那么如上所述如果有新样本,rank值和离散值都会改变;所以我的理解就是工程上常用的是等值离散化?这样即使有新样本,那么只要各特征最大值基本相同,那么离散化的值就不会改变。是这样吗?