CORE icon indicating copy to clipboard operation
CORE copied to clipboard

请问有分别对训练集,验证集,测试集进行数据增强吗

Open onetance opened this issue 1 year ago • 3 comments

您好, 请问有分别对训练集,验证集,测试集进行数据增强吗? 比如说将session [1,2,3,4,target = 5]划分为[1,2,3,target = 4],[1,2,target = 3],[1,target = 2] 谢谢!

onetance avatar Jul 04 '24 13:07 onetance

您好,是的,都是做了数据增强的,和之前用同样数据集的论文保持一致。

hyp1231 avatar Jul 06 '24 09:07 hyp1231

您好,是的,都是做了数据增强的,和之前用同样数据集的论文保持一致。

感谢回复!请问您知道为什么这里的验证集与测试集要做数据增强吗?因为一般来说,这两部分的数据是不需要做增强的

onetance avatar Jul 09 '24 05:07 onetance

我认为取决于应用场景,即哪些交互是这个场景下的待预测交互。

传统序列化推荐一般使用 leave-one-out 分割,即对于每个用户,最后交互的商品做测试,倒数第二近交互的商品做验证。这个场景下我们关注的是用户有这样的历史行为后,未来可能交互哪些商品,所以把用户下一次交互(序列最新/第二新的交互)用于测试/验证。

session-based 推荐的场景是,我们不知道用户是谁,只知道一个短时间的匿名访问点击了什么。在这种场景下,几乎不存在可以横跨模型训练和部署的 session,分配到训练/验证/测试集的 session 是彼此独立的。所以我们希望测试集中一整个 session 的交互都能准确预测,而不是只预测每个 session 最后一个交互。

hyp1231 avatar Jul 09 '24 06:07 hyp1231