FlagEmbedding issues

请教一下，embedding微调以后还需要重新构建知识库么？

1

如题，RAG系统里面已经用微调前的embedding模型向量化好的知识库，embedding模型微调以后，还有必要重新再做构建吗？

long-llm run for more than 1 epoch

5

If we following the script setting of long-llm, the parameter num_train_epoch is set to 1, it will give out really significant improvment over the original model. However, if we change...

disperaller

文本转向量的加速方法

2

我目前做的项目的一个加速的方法是，把文本转换成向量存储一下。就是说，针对BGEM3这个大模型，我只想要实现"model.encode()"来把我的文本转成向量。这样的话，有没有什么办法帮我节省一下“from FlagEmbedding import BGEM3FlagModel”的时间？就是我说不定不需要加载整个模型，只需要import一个小小的文件就可以了？“from FlagEmbedding import BGEM3FlagModel”这个会花费15s.所以我觉得说不定有什么方法可以让我不要花费这15s。感谢回复。

Yshiboo

关于微调时数据组织方式

5

原始数据：pair模式的正负样本 rerank微调数据组织方式： 1. 对于正样本，使用难样本采样策略，使用默认参数 2. 对于负样本A-B，构造成{"query": A, "pos": [A], "neg": [B]}，后续也采用难样本采样策略继续补充neg样本；话说这里用大模型生成一个假的正样本A'，效果会好一些吗🤔 这样微调bge-reranker-v2-m3后，训练loss正常下降，但是测试集上指标变化不大；打分表现是分数整体变小，都偏负数请教下，如果我想保留人工标注的负样本对数据，应该怎么构造reranker的微调数据呢？感谢🙏

currylym

[Reranker效率问题疑惑] 发现Reranker的一个效率问题

各位大神好。我在测试reranker的效率时，发现一个问题。如下： **Reranker源码：`./FlagEmbedding/flag_reranker.py` 测试设备：GPU（A800）测试数据量：1000条测试数据的token长度：2048 测试batch：4** 描述：针对 `self.tokenizer` 和 `self.model `进行了时间监控，如图： ![000](https://github.com/user-attachments/assets/fcddf7e9-0044-44d2-bb19-2a93178c0c6b) 测试出来的相关结果如图： ![1](https://github.com/user-attachments/assets/2a4dce1f-0f89-46f3-888c-a3cbd3394457) 从这个结果来看，仿佛是文本转token耗时较长（再细致拆分发现，是token从CPU转GPU耗时较长）但是！当我把`scores = self.model(**inputs, return_dict=True).logits.view(-1, ).float()` 注释之后，在统计效率，理论上总耗时应该就是减去模型的耗时（4秒）。 ![2](https://github.com/user-attachments/assets/9ca074b0-b363-442b-8629-3b6ad194cdff) 但是我发现，跑出来的耗时却是： ![3](https://github.com/user-attachments/assets/817a942c-2dda-4ab3-bd4d-7f7f9a99f85e) token转换竟然基本不占时间。请问下这个是什么情况啊？

Tian14267

docker packaging issue

Did anyone use Docker to package application related with FlagEmbedding function? I encounter timeout error while downloading embedding model in docker container init process.

JamieLee0510

微调bge-reranker-v2-m3时loss一直变大

6

配置： !torchrun --nproc_per_node 1 \ -m FlagEmbedding.reranker.run \ --output_dir /bge-reranker-v2-m3-finetune \ --model_name_or_path /bge-reranker-v2-m3/bge-reranker-v2-m3 \ --train_data output.jsonl \ --learning_rate 6e-5 \ --fp16 \ --num_train_epochs 20 \ --per_device_train_batch_size 6 \ --gradient_accumulation_steps 4...

LinXin04

Apply LLM Embedder

4

## Description I am working on a blockchain chatbot and applying LLM embedder to retrieve tools and news. However, there is a bottleneck: these retrievals can only be performed with...

QuangTQV

LM_Cocktail融合模型之后出现PyPreTokenizerTypeWrapper的报错

2

您好,之前我微调模型已经完成,融合模型也没有出问题,但是本周使用的时候突然发现,不论FlagEmbedding或者Huggingface的调用都会出现: File "/opt/conda/lib/python3.8/site-packages/FlagEmbedding/flag_reranker.py", line 158, in __init__ self.tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, cache_dir=cache_dir) File "/opt/conda/lib/python3.8/site-packages/transformers/models/auto/tokenization_auto.py", line 814, in from_pretrained return tokenizer_class.from_pretrained(pretrained_model_name_or_path, *inputs, **kwargs) File "/opt/conda/lib/python3.8/site-packages/transformers/tokenization_utils_base.py", line 2029, in from_pretrained return cls._from_pretrained( File...

Zhouziyi828

bge-reranker-v2-m3 中文场景的 prompt

1

https://huggingface.co/BAAI/bge-reranker-v2-m3 该模型支持多语言，请问中文场景，是否沿用 ```prompt = "Given a query A and a passage B, determine whether the passage contains an answer to the query by providing a prediction of either 'Yes' or...

vikotse

FlagEmbedding
FlagEmbedding copied to clipboard

Metadata

请教一下，embedding微调以后还需要重新构建知识库么？

long-llm run for more than 1 epoch

文本转向量的加速方法

关于微调时数据组织方式

[Reranker效率问题疑惑] 发现Reranker的一个效率问题

docker packaging issue

微调bge-reranker-v2-m3时loss一直变大

Apply LLM Embedder

LM_Cocktail融合模型之后出现PyPreTokenizerTypeWrapper的报错

bge-reranker-v2-m3 中文场景的 prompt

← Metadata

Owner

Metadata

FlagEmbedding FlagEmbedding copied to clipboard

Metadata

← Metadata

Owner

Metadata

FlagEmbedding
FlagEmbedding copied to clipboard