FlagEmbedding issues

BGE-M3 模型加载失败

4

调用BGE的M3模型时候，官方的示例代码，出现了下面这个问题。看起来像是transformer版本问题导致的。 sentence-transformers 2.2.2 transformers 4.34.1 FlagEmbedding 1.2.5 ``` Traceback (most recent call last): File "bge_m3_embedding_model.py", line 7, in model = BGEM3FlagModel(BGE_M3_PATH, File "/home/deploy/anaconda3/envs/yyl_env_py388/lib/python3.8/site-packages/FlagEmbedding/bge_m3.py", line 36, in __init__ self.model = BGEM3ForInference(...

Xls1994

如何使用vllm加速bge-reranker-v2-minicpm-28

3

您好，请问是否可以使用vllm来加速bge-reranker-v2-minicpm-28的推理？

chiosChen

相似句对标准问题的相似度分数差距较大

1

使用相同的模型，对其进行向量化，计算余弦相似度。两个非常相似的用户问题，对相同的标准问题的相似度分数差距较大。比如：标准问题：境内差旅住宿标准用户问题1：出差住宿标准（0.902）用户问题2：我的出差住宿标准（0.835）请问上述问题大概是由于什么造成的？或者有什么好的解决方案吗?

yanghao-97

希望知道如何解决bge1.5之前版本不相似句子之间的相似度分数很高的问题

1

2. 不相似句子之间的相似度分数很高建议使用bge v1.5，它缓解了相似度分布的问题。由于我们通过温度为0.01的对比学习来微调模型，当前BGE模型的相似度分布大约在[0.6, 1]区间内。因此，相似度大于0.6并不表示这两个句子相似。对于下游任务，如段落检索或语义相似性，重要的是分数的相对顺序，而不是绝对值。如果你需要根据相似度阈值过滤相似句子，请根据数据的相似度分布(如0.8,0.85，甚至0.9)选择合适的相似度阈值。是从1.5以后，温度改成0.02解决的吗？

adol001

复现llara，遇到模型塌缩

4

作者你好，最近在复现你们的工作“Making Large Language Models A Better Foundation For Dense Retrieval”，但是在模型训练过程中发现了模型塌缩，loss降了5个点后就不降了，同时对所有句子编码后的embedding，计算相似度几乎为1。想问一下在处理ebar和ebae两个任务的label的时候是否进行了一些特殊处理呢？我的理解是句子中常见的高频词会影响llm对句子的理解，导致这种塌缩现象，不知道你们是如何解决的？

zhaotl4

评测了下bge-m3的colbert在mteb的rerank任务上的指标

1

NLPJCL

sparse得分

1

sentence_1 = ["What is BGE M3?"] sentence_2 = ["What is BGE M3?"] 经过模型解码后得到稀疏向量： sentence_1 : {'What': 0.0836, 'is': 0.08154, 'B': 0.1295, 'GE': 0.252, 'M': 0.17, '3': 0.2695, '?': 0.04074} sentence_2:...

comateT

平均耗时疑惑

2

批量送入不同size的inputs，无论是embedding还是reranker，最后平均到每条数据的耗时都几乎一样，这是为啥？例如inputs分别输入20、40、60，总耗时正比例递增，最后每条数据的耗时相似。按理说不是batch越大，矩阵运算会节约一点时间，大batch的单条平均耗时会更小吗？有点不明白，望解惑。

shuiyigt

使用BGEM3FlagModel初始化时候，能否只是用一种colBert的embedding方式

1

documents and embeddings expected to be equal length but len(documents)=1 and len(embeddings)=3 embeddings= BGEM3FlagModel('BAAI/bge-m3', use_fp16=True) 能否只是用colBert的embedding方式，使得 len(embeddings) = 1

nicole828

正常跑reranker微调，但是报无法识别显卡的错误

1

ValueError: FP16 Mixed precision training with AMP or APEX (`--fp16`) and FP16 half precision evaluation (`--fp16_full_eval`) can only be used on CUDA or NPU devices or certain XPU devices (with...

sanwei111

FlagEmbedding
FlagEmbedding copied to clipboard

Metadata

BGE-M3 模型加载失败

如何使用vllm加速bge-reranker-v2-minicpm-28

相似句对标准问题的相似度分数差距较大

希望知道如何解决bge1.5之前版本不相似句子之间的相似度分数很高的问题

复现llara，遇到模型塌缩

评测了下bge-m3的colbert在mteb的rerank任务上的指标

sparse得分

平均耗时疑惑

使用BGEM3FlagModel初始化时候，能否只是用一种colBert的embedding方式

正常跑reranker微调，但是报无法识别显卡的错误

← Metadata

Owner

Metadata

FlagEmbedding FlagEmbedding copied to clipboard

Metadata

← Metadata

Owner

Metadata

FlagEmbedding
FlagEmbedding copied to clipboard