FlagEmbedding reranker训练效果不及训练前Baseline

你好，我的训练数据量级~10w，我做了以下两组实验：

embedding finetune 和 reranker finetune 用同一份数据，前者微调完成后比未微调的通用模型效果好，但后者微调后明显比微调前效果更差
用finetuned embedding model采样难负样本后微调reranker，依旧比微调前效果差

上述两个实验中，reranker收敛正常，评测集上分值也未发现有异常一致的情况，我的reranker微调参数：

deepspeed --num_gpus 8
--module FlagEmbedding.reranker.run
--output_dir ......
--model_name_or_path ......bge-reranker-base
--train_data ......
--deepspeed ......ds_config.json
--gradient_checkpointing
--learning_rate 6e-5
--fp16
--num_train_epochs 1
--per_device_train_batch_size 256
--gradient_accumulation_steps 4
--dataloader_drop_last True
--train_group_size 32
--max_len 64
--weight_decay 0.01
--logging_steps 1

其中max_len是符合场景要求的，因为我这里的query一般会限制在10个字以内。个人经验是，embedding model非常好调，效果也比较明显，reranker无论怎么调都不及Baseline，请问原因

Nov 21 '23 09:11 LexieeWei

你好，可以尝试换个基座模型，我们使用xlmroberta只是因为其具有多语言能力。英文推荐deberta，中文我们还未尝试过其他基座训练reranker。

Nov 22 '23 03:11 staoxiao

@LexieeWei ，你好，请教一下，你的 embedding finetune 微调训练时有没有遇到进程死锁情况，我在运行官网的指令时在加载完模型，数据后，在训练阶段陷入死锁bug里（见下图） load model: ----------------------------- -----------/home/zhangxj/db/proj/FlagEmbedding-master-------------------------------------- load model: ----------------------------- -----------/home/zhangxj/db/proj/FlagEmbedding-master-------------------------------------- -----------------------------------已开始加载训练数据数据----------------------------------------------- -----------------------------------已开始加载训练数据数据----------------------------------------------- /home/zhangxj/miniconda3/envs/pineconedb/lib/python3.9/site-packages/transformers/optimization.py:391: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set no_deprecation_warning=True to disable this warning 11/24/2023 13:13:33 - INFO - main - ========================== 已初始化保存路径 ./FlagEmbedding/baai_general_embedding/models/bge-large-zh-medical-v2 =================================== /home/zhangxj/miniconda3/envs/pineconedb/lib/python3.9/site-packages/transformers/optimization.py:391: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set no_deprecation_warning=True to disable this warning

Nov 24 '23 05:11 Youfenghao