RocketQA
RocketQA copied to clipboard
关于正负样本搜集的小疑惑
您好,很有趣的文章!
RocketQAv2中提及,正负样本的组成方式为:
融合数据增强构造的样本包括非去噪的和去噪的。使用RocketQA中的检索模型召回top-n的passage作为备选集。非去噪样本由标注正例和对备选集随机采样得到的样本构成;去噪样本由RocketQA的精排模型对备选集内passage打分得到的去噪正负样本构成。
但是,精排模型的损失为:
我想请问,此处的分子上的p+指的是ground truth呢,还是所有正样本呢?(即ground truth 加所有去噪得到的正样本)
十分感谢!