FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

不同类型数据集训练bge

Open zhaobinNF opened this issue 1 year ago • 5 comments

您好,问下我有2个不同类型数据集,我应该把他们混合在一起训练还是进行两次接续训练啊

zhaobinNF avatar Nov 23 '23 05:11 zhaobinNF

各有优劣,无法直接判断哪个更好。 另外,提供另一种简单的方案:分别在两个数据集上微调出两个模型,然后融合两个模型得到新模型(也可以同时融合两个新模型和原模型),参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail , 可以通过手动调整模型融合比例去调整下游任务表现,不用重复训练。

staoxiao avatar Nov 23 '23 09:11 staoxiao

那可以使用不同的prompt去区分不同的任务吗,比如问题召回答案使用一种instruction,大纲召回原文使用一种instruction

zhaobinNF avatar Nov 24 '23 07:11 zhaobinNF

可以的,注意推理的时候和训练保持一致的instruction.

staoxiao avatar Nov 24 '23 08:11 staoxiao

各有优劣,无法直接判断哪个更好。 另外,提供另一种简单的方案:分别在两个数据集上微调出两个模型,然后融合两个模型得到新模型(也可以同时融合两个新模型和原模型),参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail , 可以通过手动调整模型融合比例去调整下游任务表现,不用重复训练。

模型合并之后可以用sentence_transformer直接加载吗

zhaobinNF avatar Nov 28 '23 07:11 zhaobinNF

修改了一下代码,现在默认会存储成sentence_transformer的格式。也可直接将新的pytorch_mode.bin替换掉原来文件下模型,对原文件使用sentence_transformer加载

staoxiao avatar Nov 29 '23 09:11 staoxiao