DataCastle-Solution icon indicating copy to clipboard operation
DataCastle-Solution copied to clipboard

你好,你在解决方案里面讲到的排序特征,不是特别理解

Open buptlishantao opened this issue 8 years ago • 4 comments

对原始特征中 1045 维 numeric 类型的特征从小到大进行排序,得到 1045 维排序特征。

这个排序是 同一个样本下横向比较的排序,还是同一个特征下,纵向比较的排序?

buptlishantao avatar Jun 02 '16 12:06 buptlishantao

同一维特征的比较

wepe avatar Jun 02 '16 13:06 wepe

如果是这样的话,预测的时候,对于新来的样本,如何预测啊? 对于新来的单条样本再看他的rank,是不是会效率有问题?

buptlishantao avatar Jun 07 '16 05:06 buptlishantao

这点我们没考虑,但是确实存在你说的问题,工程上可能不会这么做,一般做离散化吧

wepe avatar Jun 07 '16 05:06 wepe

我能插一句吗?您刚说一般做离散化,看您代码中的离散化也是先做rank,后根据rank值平均离散化的。那么如上所述如果有新样本,rank值和离散值都会改变;所以我的理解就是工程上常用的是等值离散化?这样即使有新样本,那么只要各特征最大值基本相同,那么离散化的值就不会改变。是这样吗?

Tongzhenguo avatar Dec 01 '16 03:12 Tongzhenguo