FlagEmbedding Some configuration files are missing after finetuning bge-m3 model

我对 bge-m3 模型进行微调后发现一些配置文件丢失了，这些文件包括：

modules.json
config_sentence_transformers.json
1_Pooling/config.json

这会导致以下问题：

No sentence-transformers model found with name xxx. Creating a new one with mean pooling. （c.f. issues#1238）
使用 optimum-cli 导出 onnx 模型时, 导出的模型结构中会缺少最后的 sentence embedding 输出.

我通过将原始 bge-m3 模型中的上述文件拷贝到我的微调后模型目录中解决了上述问题，但是这样有两个问题：

需要手动拷贝，麻烦且易出错
导致一致性问题，如果我在拷贝这些配置文件前使用 SentenceTransformer 加载模型，默认使用的 mean pooling, 如果拷贝了配置文件后再加载会按照配置使用 CLS pooling.

Jan 10 '25 08:01 chansonzhang

transformers是什么版本呢

Jan 15 '25 08:01 545999961

transformers是什么版本呢

@545999961 transformers==4.44.2

Feb 07 '25 08:02 chansonzhang

https://github.com/FlagOpen/FlagEmbedding/blob/024e789d599eb4cf9a208e98d27508ad455f5ecb/FlagEmbedding/finetune/embedder/encoder_only/base/trainer.py#L41-L44

https://github.com/FlagOpen/FlagEmbedding/blob/024e789d599eb4cf9a208e98d27508ad455f5ecb/FlagEmbedding/finetune/embedder/encoder_only/m3/trainer.py#L41-L44

看起来是这里引起的，为什么要注释这些行呢？

Apr 30 '25 06:04 gaohongkui