FlagEmbedding issues

在pretrain之后，不知道pretrain好的模型是哪一个？

2

在pretrain之后，保存的文件夹里的内容，不仅保存有checkpoint-xxxx文件夹，还有encoder_model 文件夹，还有pytorch_model.bin，training_args.bin 文件。对于checkpoint-xxxx文件夹，里面还有encoder_model文件夹，里面也有pytorch_model.bin文件。我现在有四个选择：1. 用checkpoint-xxxx文件夹里面的pytorch_model.bin，2. 用encoder_model/ 文件夹里面的pytorch_model.bin， 3. 用pytorch_model.bin 文件。4. 用checkpoint-xxxx文件夹里面的encoder_model文件夹里面的pytorch_model.bin 文件，如此众多的pytorch_model.bin 不知道该用哪一个。 ![Uploading 1.png…]()

hellomaxwell

bge模型深入使用后思考与疑问

26

本人是bge的深度使用者，完成了embedding、reranker的部署、推理、微调全链路跑通与评测，目前发现一个问题，提出来，供大家思考：首先给出我的数据结论，关键数据已脱敏处理，一个箭头代表5%提升或下降，提升或下降是指与【只embedding不reranker】做对比：微调前embedding+微调前reranker叠加使用：↑ 微调前embedding+微调后reranker叠加使用：↑↑ 微调后embedding+微调前reranker叠加使用：↓ 微调后embedding+微调后reranker叠加使用：↓↓↓ 也就是说，对于微调后的embedding效果而言，叠加reranker会导致效果更差，我个人感觉是：同样的微调方式（难负例），微调后的reranker效果跟不上embedding的效果，导致叠加会变坏。后来，我针对reranker的微调方式进行修改再尝试，具体是将难负例挖掘的向量模型切换成我微调后的embedding模型（之前用的都是微调前的），结果发现了一个更令人震惊的事情，不管我怎么修改reranker训练数据：拆条/不拆条，增加neg数量从15->100，无一例外，训练loss全部不再收敛，训练后模型推理丧失多样性，所有的输出全部为同一个值

mechigonft

How Llam2 & BGE is finetuned in LM-Cocktail

1

There is a table in the paper mentioning the data splits (train-test) of every domain. But the finetuning-related details are not there, can you please provide the finetuning details as...

cahuja1992