FlagEmbedding
FlagEmbedding copied to clipboard
关于使用MTP数据训练收敛快的问题
我们在使用MTP全量数据进行训练的时候,发现收敛速度非常快,差不多0.1个epoch就收敛了。想问下这种还有必要训练多个epoch吗?我们使用的基础模型不是bge,所以不会有重复训练的问题。如下是我的一些参数设置
loss收敛了,但模型准确度可能还能上涨。建议多训一段时间。 另外,MTP中多数据,很多的neg列表里只有1-2个negatives,建议开小一点的group size。
谢谢您的回复