FlagEmbedding issues

Fix "idx" bug in split_data_by_length.py of BGE-M3

In the split_data_by_length.py code inside BGE-M3, after filtering the dataset by "max_length" field, the "idx" field is somehow changed , so the `split_dataset = dataset.select(idxs["idx"])` will result in the wrong...

nntoan209

推理加载模型报错

加载模型的时候报错：

18140663659

BGEM3 模型的 GPU 利用率太低

3

from FlagEmbedding import BGEM3FlagModel 通过这种方式进行部署推理的，但是压测的时候，发现CPU利用率达到200%+， GPU利用率仅仅2%，T4的卡，有啥建议？ [INFO ] WorkerPool - loading model bge_m3_deploy_code (PENDING) on gpu(0) ... -- [INFO ] ModelInfo - S3 url found, start downloading from s3://sagemaker-us-west-2-106839800180/LLM-RAG/workshop/bge-m3-model/ [INFO...

ybalbert001

微调参数设置

1

你好，我有以下疑问： 1. 微调时，per_device_train_batch_size设置为多少比较合适呢？ 2. 若采用use_inbatch_neg，batch_size是否越大越好呢？

Powerdiao

There should be 'return_sparse_embedding' in BGEM3FlagModel class

1

return_sparse_embedding arg exists in BGEM3ForInference, but cannot pass this arg from BGEM3FlagModel

IcyTide

langchain intergration with bge-m3 or llama-idnex?

1

Not sure how to generate Sparse Embeddings when using langchain.

drewskidang

请问如何使用langchain获取bge-m3的稀疏向量分数

1

请问如何使用langchain获取bge-m3的稀疏向量分数

1006076811

FlagReranker.compute_score 分数的分布是哪个区间呢？

4

- 问题1：两个一样的句子，其分数也没有到达10 ![image](https://github.com/FlagOpen/FlagEmbedding/assets/129077921/fbbb2547-42ad-41a1-adac-b2bcea89888c) - 问题2：分数的分布的区间是什么呢，如果想归一化，有推荐的归一化方法或函数么

CXLiang123

bge-m3中3种混合检索的方法用什么向量数据库可以支持呢？

11

bge-m3中3种混合检索的方法用什么向量数据库可以支持呢？

charliedream1

Provide a normalized algorithm for compute lexical similar score

1

Same sentences can always get a "1" simirlar score like dense way but not a score less than 1 and change with different sentence content. Different sentences can get an...

IcyTide

FlagEmbedding
FlagEmbedding copied to clipboard

Metadata

Fix "idx" bug in split_data_by_length.py of BGE-M3

推理加载模型报错

BGEM3 模型的 GPU 利用率太低

微调参数设置

There should be 'return_sparse_embedding' in BGEM3FlagModel class

langchain intergration with bge-m3 or llama-idnex?

请问如何使用langchain获取bge-m3的稀疏向量分数

FlagReranker.compute_score 分数的分布是哪个区间呢？

bge-m3中3种混合检索的方法用什么向量数据库可以支持呢？

Provide a normalized algorithm for compute lexical similar score

← Metadata

Owner

Metadata

FlagEmbedding FlagEmbedding copied to clipboard

Metadata

← Metadata

Owner

Metadata

FlagEmbedding
FlagEmbedding copied to clipboard