FlagEmbedding issues

请教colbert实现的问题

3

非常棒的工作。我看代码过程中有一些疑问，辛苦您解答并确认下。 1.看代码的时候，发现colbert，在训练时，算score的时候并没有mask掉query和doc中的padding的部分，预测的时候，却mask掉了padding的部分，请问下是这样嘛？（还是因为数据的加载方式，其实训练的时候并没有padding）如果是这样的话，训练和预测不一致了，不会影响效果嘛？ 2.看colbert的代码实现，发现相比原论文，有一些改变，请问下有做过加或者不加的实验嘛？加了效果会好嘛？ 2.1 算出来的得分除了0.02的温度因子。 2.2算出来的得分除了query的长度。

NLPJCL

BGE-M3 compute_score function is very inefficient

1

Is there any faster way to perform the function compute_score for BGE-M3 model? According to the code, it will have to encode the whole corpus num_queries times, and if num_queries...

nntoan209

挖掘hard-negatives时失败

1

在挖掘hard negatives时，没有报错一直停在creating index and search, 我的运行命令是 python -m FlagEmbedding.baai_general_embedding.finetune.hn_mine \ --model_name_or_path BAAI/bge-m3 \ --input_file toy_finetune_data.jsonl \ --output_file toy_finetune_data_minedHN.jsonl \ --range_for_sampling 2-200 \ --negative_number 15 \ --use_gpu_for_searching 然后top查看进程占用cpu 100% 去掉--use_gpu_for_searching后可以正常运行还想请教一下我的数据是一段长文本以及一个关于长文本的问题及答案，请问该怎么构造挖掘hard-nagetives中的inputfile和candidate...

EricGu1001

SafetensorError: Error while deserializing header: HeaderTooSmall

1

# Environments Python: 3.9 OS: Ubuntu 20.04 FlagEmbedding 1.2.5 transformers 4.33.1 # Details my test python file `bge-test.py`: ``` from FlagEmbedding import BGEM3FlagModel model = BGEM3FlagModel('models/bge-m3', use_fp16=True) # Setting use_fp16...

IcyFeather233

bug：多卡同步的时候，cross_targets计算方式是不是有问题？

1

代码第265行，多卡数据同步之后，cross_targets计算方式有问题，应该得考虑当前local rank。 https://github.com/FlagOpen/FlagEmbedding/blob/97f57a1b92dc68d56731a1e38a2d3aad4cd67e20/FlagEmbedding/BGE_M3/modeling.py#L265 原始是：cross_targets = idxs_cross * (cross_p_dense_vecs.size(0) // cross_q_dense_vecs.size(0)) 应该是：cross_targets = idxs_cross * (cross_p_dense_vecs.size(0) // cross_q_dense_vecs.size(0))+self.process_rank*p_dense_vecs.size(0)

TonyUSTC

请问如何用混合检索测试MTEB？

1

sunzx8

bge m3混合检索

2

请问该如何把三种检索混合在一起使用？

sunzx8

预训练数据获取

3

您好，看到论文中提到了数据全开源，请问一下RetroMAE预训练用到的105种语言的语料该如何申请或者下载。

JOHNNY-fans

使用bge m3做文档问答

1

想用最新的模型做文档问答（如：问“感冒有哪些症状？”，答“普通感冒的症状包括咳嗽、流涕、打喷嚏、鼻塞等，早·····等等”），之前使用的bge-large-zh-v1.5会有一个prompt"为这个句子生成表示以用于检索相关文章："。m3通过模型向量化后，不添加指令可以直接支持这样的检索？

gggdroa

[C-MTEB] How to convert QA dataset to Retrieval & Reranking Dataset

3

I observed that some datasets such as **CmedqaRetrieval, CMedQAv1, CMedQAv2** Built from QA datasets and converted to 'query-pos-neg' format. Do you have 1 instruction for building this data? QA dataset...

Iambestfeed

FlagEmbedding
FlagEmbedding copied to clipboard

Metadata

请教colbert实现的问题

BGE-M3 compute_score function is very inefficient

挖掘hard-negatives时失败

SafetensorError: Error while deserializing header: HeaderTooSmall

bug：多卡同步的时候，cross_targets计算方式是不是有问题？

请问如何用混合检索测试MTEB？

bge m3混合检索

预训练数据获取

使用bge m3做文档问答

[C-MTEB] How to convert QA dataset to Retrieval & Reranking Dataset

← Metadata

Owner

Metadata

FlagEmbedding FlagEmbedding copied to clipboard

Metadata

← Metadata

Owner

Metadata

FlagEmbedding
FlagEmbedding copied to clipboard