WebGLM 关于微调检索模型的数据

关于微调检索模型的数据

Open C-YEE00 opened this issue 1 year ago • 2 comments

请问微调检索器的数据是哪里来的

Jul 25 '23 12:07 C-YEE00

你好！我们微调检索器数据的Query来自ELI5，Reference来自搜索引擎检索，并根据GPT-3是否采用作为标签构造的。详细构造细节可见我们的论文 (https://arxiv.org/abs/2306.07906)

Jul 25 '23 16:07 hanyullai

你好！我们微调检索器数据的Query来自ELI5，Reference来自搜索引擎检索，并根据GPT-3是否采用作为标签构造的。详细构造细节可见我们的论文 (https://arxiv.org/abs/2306.07906) 训练数据的一条样本是<query，postive，negative>。根据论文里介绍的，每个query有5个检索模型排序靠前的reference，假设这5个里面GPT-3会选3个作为正例，2个作为负例。想请教如何根据这部分数据转成<query, pos, neg>的形式，这里负例比正例少1个，是把候选扩展找到新的负例还是随机挑选一个负例。

Aug 07 '23 12:08 ZhaoyingAC

WebGLM WebGLM copied to clipboard

关于微调检索模型的数据

WebGLM
WebGLM copied to clipboard