FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

Retrieval and Retrieval-augmented LLMs

Results 622 FlagEmbedding issues
Sort by recently updated
recently updated
newest added

非常棒的工作。我看代码过程中有一些疑问,辛苦您解答并确认下。 1.看代码的时候,发现colbert,在训练时,算score的时候并没有mask掉query和doc中的padding的部分,预测的时候,却mask掉了padding的部分,请问下是这样嘛?(还是因为数据的加载方式,其实训练的时候并没有padding)如果是这样的话,训练和预测不一致了,不会影响效果嘛? 2.看colbert的代码实现,发现相比原论文,有一些改变,请问下有做过加或者不加的实验嘛?加了效果会好嘛? 2.1 算出来的得分除了0.02的温度因子。 2.2算出来的得分除了query的长度。

Is there any faster way to perform the function compute_score for BGE-M3 model? According to the code, it will have to encode the whole corpus num_queries times, and if num_queries...

在挖掘hard negatives时,没有报错一直停在creating index and search, 我的运行命令是 python -m FlagEmbedding.baai_general_embedding.finetune.hn_mine \ --model_name_or_path BAAI/bge-m3 \ --input_file toy_finetune_data.jsonl \ --output_file toy_finetune_data_minedHN.jsonl \ --range_for_sampling 2-200 \ --negative_number 15 \ --use_gpu_for_searching 然后top查看进程占用cpu 100% 去掉--use_gpu_for_searching后可以正常运行 还想请教一下我的数据是一段长文本以及一个关于长文本的问题及答案,请问该怎么构造挖掘hard-nagetives中的inputfile和candidate...

# Environments Python: 3.9 OS: Ubuntu 20.04 FlagEmbedding 1.2.5 transformers 4.33.1 # Details my test python file `bge-test.py`: ``` from FlagEmbedding import BGEM3FlagModel model = BGEM3FlagModel('models/bge-m3', use_fp16=True) # Setting use_fp16...

代码第265行,多卡数据同步之后,cross_targets计算方式有问题,应该得考虑当前local rank。 https://github.com/FlagOpen/FlagEmbedding/blob/97f57a1b92dc68d56731a1e38a2d3aad4cd67e20/FlagEmbedding/BGE_M3/modeling.py#L265 原始是:cross_targets = idxs_cross * (cross_p_dense_vecs.size(0) // cross_q_dense_vecs.size(0)) 应该是:cross_targets = idxs_cross * (cross_p_dense_vecs.size(0) // cross_q_dense_vecs.size(0))+self.process_rank*p_dense_vecs.size(0)

请问该如何把三种检索混合在一起使用?

您好,看到论文中提到了数据全开源,请问一下RetroMAE预训练用到的105种语言的语料该如何申请或者下载。

想用最新的模型做文档问答(如:问“感冒有哪些症状?”,答“普通感冒的症状包括咳嗽、流涕、打喷嚏、鼻塞等,早·····等等”),之前使用的bge-large-zh-v1.5会有一个prompt"为这个句子生成表示以用于检索相关文章:"。m3通过模型向量化后,不添加指令可以直接支持这样的检索?

I observed that some datasets such as **CmedqaRetrieval, CMedQAv1, CMedQAv2** Built from QA datasets and converted to 'query-pos-neg' format. Do you have 1 instruction for building this data? QA dataset...