关于BGE英文有标注微调数据的问题
感谢您做出这么好的工作!请问您是否会发布bge v1.5的英文有标注微调的完整训练集?
如果不会发布训练集的话,我希望进一步了解bge v1.5的英文有标注微调数据是哪些 我看到了您在README提到:
Training data: English: data from sentence-transformers: msmarco, nq, hotpotqa, quora, stackexchange_duplicate, s2orc Natural Language interface: NLI others: MEDI, fever
但仍然有几个想请教的问题:
-
1.在您给出的sentence-transformers的链接中没有hotpotqa数据集
-
2.在您给出的sentence-transformers的链接中有3个名为stackexchange_duplicate和s2orc的数据集,分别是:
stackexchange_duplicate_questions_title_title.jsonl.gz stackexchange_duplicate_questions_title-body_title-body.jsonl.gz stackexchange_duplicate_questions_body_body.jsonl.gz S2ORC_citations_abstracts.jsonl.gz S2ORC_title_abstract.jsonl.gz S2ORC_citations_titles.jsonl.gz 请问您训练使用的是哪个数据集?
- 3.MEDI的介绍中说
consisting` of a collection of 330 datasets from Super-NI(Super-NaturalInstructions), sentence-transformer embedding training data, KILT and MedMCQA, spanning a wide range of domains and tasks. We construct positive and negative pairs if they are not provided, and store them in a unified format。
请问MEDI中的sentence-transformer embedding training data会和您上文所说的sentence-transformers使用的数据集冲突吗,如果需要去重,请问是怎么去重的?
- 4.请问fever使用的是fever,而不是fever2.0或feverous对吗?
- 5.请问是在完整的这些数据集上训练的吗,训练了多少轮?
- 6.请问对所有监督数据集的难负例采样都是这样吗:使用无监督训练后的bge模型,对每个样本采集1个难负例。如果某个数据集提供负例,就不需要用无监督bge模型采样了对吗?
再顶一下这个问题,希望能得到您的解答 @staoxiao
- 可以从其他地方下载hotpotqa,这份数据挺常见
- 全部使用了,但经过了采样,一共大概10000条左右
- 有重复,我们没有专门去重。medi数据质量不高,我们进行了过滤
- fever
- 完整数据训练,训练5k个step
- 采集了15个负样例。除了medi,其他检索数据集都进行了采样。
非常感谢您的慷慨解答!
@staoxiao 您好,有两个想请教的问题: 1.medi数据集处理的时候保留q或d端的前缀吗? 2.medi处理数据的时候需要考虑这个问题吗:medi数据集一个batch中可能头部或尾部存在来自不同数据集的数据,导致in-batch neg来自不同数据集?