FlagEmbedding 不同类型数据集训练bge

不同类型数据集训练bge

Open zhaobinNF opened this issue 1 year ago • 5 comments

您好，问下我有2个不同类型数据集，我应该把他们混合在一起训练还是进行两次接续训练啊

Nov 23 '23 05:11 zhaobinNF

各有优劣，无法直接判断哪个更好。另外，提供另一种简单的方案：分别在两个数据集上微调出两个模型，然后融合两个模型得到新模型(也可以同时融合两个新模型和原模型），参考：https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail , 可以通过手动调整模型融合比例去调整下游任务表现，不用重复训练。

Nov 23 '23 09:11 staoxiao

那可以使用不同的prompt去区分不同的任务吗，比如问题召回答案使用一种instruction,大纲召回原文使用一种instruction

Nov 24 '23 07:11 zhaobinNF

可以的，注意推理的时候和训练保持一致的instruction.

Nov 24 '23 08:11 staoxiao

各有优劣，无法直接判断哪个更好。另外，提供另一种简单的方案：分别在两个数据集上微调出两个模型，然后融合两个模型得到新模型(也可以同时融合两个新模型和原模型），参考：https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail , 可以通过手动调整模型融合比例去调整下游任务表现，不用重复训练。

模型合并之后可以用sentence_transformer直接加载吗

Nov 28 '23 07:11 zhaobinNF

修改了一下代码，现在默认会存储成sentence_transformer的格式。也可直接将新的pytorch_mode.bin替换掉原来文件下模型，对原文件使用sentence_transformer加载

Nov 29 '23 09:11 staoxiao

FlagEmbedding FlagEmbedding copied to clipboard

不同类型数据集训练bge

FlagEmbedding
FlagEmbedding copied to clipboard