deep-ctr icon indicating copy to clipboard operation
deep-ctr copied to clipboard

How is your data handled?

Open pursuit1994 opened this issue 7 years ago • 2 comments

希望我用中文问问题不会失礼~ 研一小白想请教您几个问题: 1.数据featindex.txt和featindex.fm.txt是什么关系?我观察到featindex.txt中大多数是8、10、12列的编码(在这里要再问一句这些编码是自己随意设定的吗?感觉没有顺序呀?)别的列的编码呢? 2.数据中标签为1的样本数量远小于标签为0的样本,需要做什么操作来处理这种情况吗?样本的不均衡会影响结果吗?

pursuit1994 avatar May 20 '17 13:05 pursuit1994

你好 pursuit1994, 1.featindex.txt 是所有需要用的特征都做了编码(a:b c)a是特征的序列,b是对应的值,c是编码。featindex.fm.txt只是对部分特征做了编码。编码是随机的。 2.不平衡的情况的确存在,我们在训练的时候会随机删除一些0的样本的。

tianmingdu avatar May 21 '17 07:05 tianmingdu

您好, 非常感谢您的解惑~!您的回答帮了我很多~ 另外想再请教一下有关ID的特征是否需要做编码呢,感觉编码后数据会变得很大,而且我感觉ID除了链接别的field的信息外好像没别的作用了,想问下您的意见呢。

pursuit1994 avatar May 21 '17 11:05 pursuit1994