FlagEmbedding issues

关于用自己的测试集测试的问题

1

您好！想请问下在自己的数据下对reranker模型做了微调，想在自己构造的测试集上测试效果可以吗，测试集应该处理成什么形式呢，测试脚本应该使用哪个呢？非常感谢回答！

Add package_data for Visualized_BGE

2

Currently, some files are missing, so installing the package with `pip install FlagEmbedding` does not enable the visual model to work. We believe this issue arises because `bpe_simple_vocab_16e6.txt.gz` and `model_configs/*.json`...

hotchpotch

BGE 模型对应paper中的训练代码在哪里？

1

BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models

yw32

rerank base 微调之后分数全部变成负数

3

使用rerank base模型在领域数据上微调，微调出来的分数都变成了负数 ![image](https://github.com/user-attachments/assets/19698ac0-f352-4fb4-bd6f-ce44bc4609ca) 使用的参数： ![image](https://github.com/user-attachments/assets/ff86d16b-96e8-4373-b524-a7369a39cb4c) 我使用大模型根据正样本生成问题，并用这个问题去检索出10个负样本，并且已经确保在训练数据中负样本全部都是负样本。请问还需要排查什么问题吗？

YYYFEI

bge-reranker-v2.5-gemma2-lightweight输出结果归一化后都很高

4

为什么我测试bge-reranker-v2.5-gemma2-lightweight模型效果，归一化后结果都在0.99以上，是什么原因啊。

dandanW91

Bge-M3 训练

2

Hi, 我想问一下Bge-M3 在训练中，处理像NQ这样的问答数据，有没有加一下instruction进行训练呢？因为我直接在训练好的权重上继续训练nq, 发现loss很高

zwhus

bge-m3统一微调（密集嵌入、稀疏嵌入和colbert）的原理

2

在进行对bge-m3统一微调（密集嵌入、稀疏嵌入和colbert）的时候，发现训练的代码不是很详细，不太清楚其中的原理 {"query": str, "pos": List[str], "neg":List[str]} 是query+pos，query+neg，进行二分类么

wang-ship-it

Visualized_BGE No module named 'eva_clip'

8

I'm using BAAI/bge-m3 and BAAI/bge-visualized/Visualized_m3.pth. I download model manually, I give the local path, It gives out error as below: ```bash File "bge_visualized.py", line 3, in from FlagEmbedding.visual.modeling import Visualized_BGE...

charliedream1

bge-reranker-large 及 bge-reranker-v2-m3 的 max_length 应是多少

4

根据模型config文件的max_position_embeddings bge-reranker-large是514，bge-reranker-v2-m3是8194 而根据 https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/llm_reranker#for-normal-reranker-bge-reranker-base--bge-reranker-large--bge-reranker-v2-m3--1 ，此处统一为512 ``` import torch from transformers import AutoModelForSequenceClassification, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-reranker-v2-m3') model = AutoModelForSequenceClassification.from_pretrained('BAAI/bge-reranker-v2-m3') model.eval() pairs = [['what is panda?', 'hi'], ['what is panda?', 'The...

vikotse

finetune中的继续训练问题

4

在finetune.sh中增加以下参数，但是并没有从保存的最后一个checkpoint继续训练，请问怎么实现finetune中的继续训练呢？ --resume_from_checkpoint True \

Lyl-Lab

FlagEmbedding
FlagEmbedding copied to clipboard

Metadata

关于用自己的测试集测试的问题

Add package_data for Visualized_BGE

BGE 模型对应paper中的训练代码在哪里？

rerank base 微调之后分数全部变成负数

bge-reranker-v2.5-gemma2-lightweight输出结果归一化后都很高

Bge-M3 训练

bge-m3统一微调（密集嵌入、稀疏嵌入和colbert）的原理

Visualized_BGE No module named 'eva_clip'

bge-reranker-large 及 bge-reranker-v2-m3 的 max_length 应是多少

finetune中的继续训练问题

← Metadata

Owner

Metadata

FlagEmbedding FlagEmbedding copied to clipboard

Metadata

← Metadata

Owner

Metadata

FlagEmbedding
FlagEmbedding copied to clipboard