WebGLM icon indicating copy to clipboard operation
WebGLM copied to clipboard

关于微调检索模型的数据

Open C-YEE00 opened this issue 1 year ago • 2 comments

请问微调检索器的数据是哪里来的

C-YEE00 avatar Jul 25 '23 12:07 C-YEE00

你好!我们微调检索器数据的Query来自ELI5,Reference来自搜索引擎检索,并根据GPT-3是否采用作为标签构造的。详细构造细节可见我们的论文 (https://arxiv.org/abs/2306.07906)

hanyullai avatar Jul 25 '23 16:07 hanyullai

你好!我们微调检索器数据的Query来自ELI5,Reference来自搜索引擎检索,并根据GPT-3是否采用作为标签构造的。详细构造细节可见我们的论文 (https://arxiv.org/abs/2306.07906) 训练数据的一条样本是<query,postive,negative>。根据论文里介绍的,每个query有5个检索模型排序靠前的reference,假设这5个里面GPT-3会选3个作为正例,2个作为负例。想请教如何根据这部分数据转成<query, pos, neg>的形式,这里负例比正例少1个,是把候选扩展找到新的负例还是随机挑选一个负例。

ZhaoyingAC avatar Aug 07 '23 12:08 ZhaoyingAC