Chenglei Dai (代成雷)
Chenglei Dai (代成雷)
关于模型的小疑问
博士学姐,我最近用了你的思路实验了下用户序列预测,用户之前的点击item作为q,后续的item是否点击作为d,实验的auc达到0.6,不过训练达到0.7可能过拟合了,商品维度是100百万维,参数大约2亿多,当然比单纯的商品ctr基线要好。我现在疑问几点。1)过拟合是怎么出现的,好像有点轻微拟合。2)embeding后kernel Pooling起到特征抽取的作用,那么这次实验有效果是由于这层起到重要作用还是?好像能学习到用户这之前的点击序列上能大概知道下一时刻想要的是什么?3)在有些实验样本上表现比较差,分数区分性很小,有的序列下不同商品相关性分数都一样,这个问题?期待你的回复,先谢谢了!
你好,打扰问下,query \t postive_document \t negative_document \t score_difference 这个训练数据如何产生呢?score_difference能否再解释一次,是什么分数的差异,我如何构造这样的样本,谢谢!
Thank you for your work. I have a bit of confusion. Can you provide some data? Or your prediction script, or a result assessment?