FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

进行模型微调时,突然loss跳到0.0后一直在0.0

Open mianzhiwj opened this issue 1 year ago • 4 comments

截屏2024-04-11 10 49 49 如图,使用m3de 数据,微调自己的mt5-encoder模型,batch_size 受限,调整了group_size 到21,试了几个数据集都如此,训练一段时间后,loss跳到0.0,请问下可能是啥原因? --train_data miracl \ --learning_rate 2e-5 \ --fp16 \ --num_train_epochs 5 \ --per_device_train_batch_size 1 \ --dataloader_drop_last True \ --normlized True \ --temperature 0.02 \ --sentence_pooling_method "mean" \ --query_max_len 64 \ --passage_max_len 256 \ --train_group_size 21 \ --negatives_cross_device \

mianzhiwj avatar Apr 11 '24 02:04 mianzhiwj

T5模型没有cls token,需要使用mean pooling方式:--sentence_pooling_method mean

staoxiao avatar Apr 11 '24 03:04 staoxiao

谢谢回复。 我使用的就是mean,看我列的参数

mianzhiwj avatar Apr 11 '24 03:04 mianzhiwj

我打印了训练过程中的一些参数,发现scores中出现Nan,是否跟这个有关,如何解决 截屏2024-04-17 16 07 36

mianzhiwj avatar Apr 17 '24 08:04 mianzhiwj

您好,t5训练为向量模型需要更细致的调整参数,个人也一直没有成功训好过t5 model,无法给出有效建议。

staoxiao avatar Apr 17 '24 12:04 staoxiao