DSIN icon indicating copy to clipboard operation
DSIN copied to clipboard

报bug:DSIN特征穿越问题?

Open zjpf opened this issue 2 years ago • 0 comments

bug位置在文件2_gen_dsin_input.py第52行:last_sess_idx = i。当用户没有大于2个行为的session时,last_sess_idx = len(user_hist_session[user]) - 1,而不是等于0。导致第56行定位用户前4个session时,取的是最新的4个session,而非当前session前4个session。因此造成部分样本会使用到label时间之后的特征。 “11,1494226737,302383,430548_1007,1,0 11,1494226737,598359,430548_1007,1,0 11,1494226737,684497,430548_1007,1,0 11,1494419569,427488,430548_1007,1,0 11,1494419569,611964,430548_1007,1,0 11,1494419569,739213,430548_1007,1,0”,例如raw_sample中user_id=11,时间=1494226737的3个样本就是这种情况。

zjpf avatar Jan 20 '22 07:01 zjpf