FlagEmbedding 进行模型微调时，突然loss跳到0.0后一直在0.0

截屏2024-04-11 10 49 49 如图，使用m3de 数据，微调自己的mt5-encoder模型，batch_size 受限，调整了group_size 到21，试了几个数据集都如此，训练一段时间后，loss跳到0.0，请问下可能是啥原因？ --train_data miracl \ --learning_rate 2e-5 \ --fp16 \ --num_train_epochs 5 \ --per_device_train_batch_size 1 \ --dataloader_drop_last True \ --normlized True \ --temperature 0.02 \ --sentence_pooling_method "mean" \ --query_max_len 64 \ --passage_max_len 256 \ --train_group_size 21 \ --negatives_cross_device \

Apr 11 '24 02:04 mianzhiwj

T5模型没有cls token，需要使用mean pooling方式：--sentence_pooling_method mean

Apr 11 '24 03:04 staoxiao

谢谢回复。我使用的就是mean，看我列的参数

Apr 11 '24 03:04 mianzhiwj

我打印了训练过程中的一些参数，发现scores中出现Nan，是否跟这个有关，如何解决截屏2024-04-17 16 07 36

Apr 17 '24 08:04 mianzhiwj

您好，t5训练为向量模型需要更细致的调整参数，个人也一直没有成功训好过t5 model，无法给出有效建议。

Apr 17 '24 12:04 staoxiao