WebGLM
WebGLM copied to clipboard
关于微调检索模型的数据
请问微调检索器的数据是哪里来的
你好!我们微调检索器数据的Query来自ELI5,Reference来自搜索引擎检索,并根据GPT-3是否采用作为标签构造的。详细构造细节可见我们的论文 (https://arxiv.org/abs/2306.07906)
你好!我们微调检索器数据的Query来自ELI5,Reference来自搜索引擎检索,并根据GPT-3是否采用作为标签构造的。详细构造细节可见我们的论文 (https://arxiv.org/abs/2306.07906) 训练数据的一条样本是<query,postive,negative>。根据论文里介绍的,每个query有5个检索模型排序靠前的reference,假设这5个里面GPT-3会选3个作为正例,2个作为负例。想请教如何根据这部分数据转成<query, pos, neg>的形式,这里负例比正例少1个,是把候选扩展找到新的负例还是随机挑选一个负例。