FlagEmbedding 关于BGE英文有标注微调数据的问题

感谢您做出这么好的工作！请问您是否会发布bge v1.5的英文有标注微调的完整训练集？

如果不会发布训练集的话，我希望进一步了解bge v1.5的英文有标注微调数据是哪些我看到了您在README提到：

Training data: English: data from sentence-transformers: msmarco, nq, hotpotqa, quora, stackexchange_duplicate, s2orc Natural Language interface: NLI others: MEDI, fever

但仍然有几个想请教的问题：

1.在您给出的sentence-transformers的链接中没有hotpotqa数据集
2.在您给出的sentence-transformers的链接中有3个名为stackexchange_duplicate和s2orc的数据集，分别是：

stackexchange_duplicate_questions_title_title.jsonl.gz stackexchange_duplicate_questions_title-body_title-body.jsonl.gz stackexchange_duplicate_questions_body_body.jsonl.gz S2ORC_citations_abstracts.jsonl.gz S2ORC_title_abstract.jsonl.gz S2ORC_citations_titles.jsonl.gz 请问您训练使用的是哪个数据集？

3.MEDI的介绍中说

consisting` of a collection of 330 datasets from Super-NI(Super-NaturalInstructions), sentence-transformer embedding training data, KILT and MedMCQA, spanning a wide range of domains and tasks. We construct positive and negative pairs if they are not provided, and store them in a unified format。

请问MEDI中的sentence-transformer embedding training data会和您上文所说的sentence-transformers使用的数据集冲突吗，如果需要去重，请问是怎么去重的？

4.请问fever使用的是fever，而不是fever2.0或feverous对吗？
5.请问是在完整的这些数据集上训练的吗，训练了多少轮？
6.请问对所有监督数据集的难负例采样都是这样吗：使用无监督训练后的bge模型，对每个样本采集1个难负例。如果某个数据集提供负例，就不需要用无监督bge模型采样了对吗？

Nov 08 '23 11:11 41924076

再顶一下这个问题，希望能得到您的解答 @staoxiao

Nov 12 '23 09:11 41924076

可以从其他地方下载hotpotqa，这份数据挺常见
全部使用了，但经过了采样，一共大概10000条左右
有重复，我们没有专门去重。medi数据质量不高，我们进行了过滤
fever
完整数据训练，训练5k个step
采集了15个负样例。除了medi，其他检索数据集都进行了采样。

Nov 13 '23 02:11 staoxiao

非常感谢您的慷慨解答！

Nov 13 '23 10:11 41924076

@staoxiao 您好，有两个想请教的问题： 1.medi数据集处理的时候保留q或d端的前缀吗？ 2.medi处理数据的时候需要考虑这个问题吗：medi数据集一个batch中可能头部或尾部存在来自不同数据集的数据，导致in-batch neg来自不同数据集?

Nov 29 '23 15:11 41924076