FlagEmbedding
FlagEmbedding copied to clipboard
不同类型数据集训练bge
您好,问下我有2个不同类型数据集,我应该把他们混合在一起训练还是进行两次接续训练啊
各有优劣,无法直接判断哪个更好。 另外,提供另一种简单的方案:分别在两个数据集上微调出两个模型,然后融合两个模型得到新模型(也可以同时融合两个新模型和原模型),参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail , 可以通过手动调整模型融合比例去调整下游任务表现,不用重复训练。
那可以使用不同的prompt去区分不同的任务吗,比如问题召回答案使用一种instruction,大纲召回原文使用一种instruction
可以的,注意推理的时候和训练保持一致的instruction.
各有优劣,无法直接判断哪个更好。 另外,提供另一种简单的方案:分别在两个数据集上微调出两个模型,然后融合两个模型得到新模型(也可以同时融合两个新模型和原模型),参考:https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail , 可以通过手动调整模型融合比例去调整下游任务表现,不用重复训练。
模型合并之后可以用sentence_transformer直接加载吗
修改了一下代码,现在默认会存储成sentence_transformer的格式。也可直接将新的pytorch_mode.bin替换掉原来文件下模型,对原文件使用sentence_transformer加载