RocketQA icon indicating copy to clipboard operation
RocketQA copied to clipboard

关于正负样本搜集的小疑惑

Open MrBlack0220 opened this issue 2 years ago • 1 comments

您好,很有趣的文章! RocketQAv2中提及,正负样本的组成方式为: 融合数据增强构造的样本包括非去噪的和去噪的。使用RocketQA中的检索模型召回top-n的passage作为备选集。非去噪样本由标注正例和对备选集随机采样得到的样本构成;去噪样本由RocketQA的精排模型对备选集内passage打分得到的去噪正负样本构成。 但是,精排模型的损失为: image 我想请问,此处的分子上的p+指的是ground truth呢,还是所有正样本呢?(即ground truth 加所有去噪得到的正样本) 十分感谢!

MrBlack0220 avatar Oct 26 '22 11:10 MrBlack0220