FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

Retrieval and Retrieval-augmented LLMs

Results 622 FlagEmbedding issues
Sort by recently updated
recently updated
newest added

请问下, 1.bge-reranker模型在训练过程中,构造难负例了吗? 2.英文和中文的数据,不同来源的数据,是随机shuff后训练吗?

Fix a bug in BGE_M3/split_data_by_length.py, and update README of MKQA.

您好,我用您的[teacher_scores计算脚本](https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/llm_embedder/run_lm_score.py)基于llama-7b-chat算了一下msmarco的teacher_scores,我并没对代码进行任何改动,但是分数和您给出的结果相差很大。请问您知道什么原因么? 下图左边是我运行您给定脚本的结果,右边是您给出的msmarco teacher_scores文件的结果。qid是1185869。 可以看到两份文件teacher_scores的差异体现在: 1. teacher_scores的排序差异很大。我的positive doc的teacher_scores得分是-0.4101,几乎仍然是top1,但是您计算出的得分是-3.1269,排名很靠后。 2. teacher_scores的分布区间差异很大。我的teacher_scores是在0-2之间,您生成的teacher_scores大约是在-1到-8之间。 期待您的回复! ![245A772A-D7FF-462e-B209-E81EA63CBEA0](https://github.com/FlagOpen/FlagEmbedding/assets/50194803/fb06b2cb-9464-4786-be4a-f91534e746e7)

Hi, 我正在复现您在本仓库提到的activate-beacon方法,并期望在训练结果上得到您在论文提到的相近分数 但在复现过程中遇到如下问题: 0. 我们的复现环境是8卡RTX3090,看到您提供的环境是8卡A800,不知道您的是40G还是80G。如果在这种比较小的显存平台上跑起来需要做哪些改进呢?或者说有无改进显存消耗而不显著影响性能的指标可以调整? 1. 您提供的train脚本似乎是针对deepspeed zero2进行的处理,我尝试换用zero3(通常zero3能比2节省显存),即您提供的data目录下的deepspeed/stage3.json脚本运行,提示参数权重不对,有无更新方式? 2. 我的最终目标是在8卡24G显存的训练平台上进行复现,复现分数与您在论文中的分数相近即可 烦请您在百忙之中解答我的疑问,祝您生活愉快!

![WechatIMG17](https://github.com/FlagOpen/FlagEmbedding/assets/99397838/b1501d42-3f35-45cd-8bf1-179369571089) 这个能保证每个batch 都会再随机采样么,还是在第一次就固定了全部的训练数据

我的场景是rag的召回,尝试训练BAAI/bge-m3 数据集格式是 { query:[query], pos:[pos], neg:[neg1,neg2,neg3....] 【10个】 } 一些关键参数 batchsize 16 perdivce 2 gpu 8 per_device_train_batch_size 1 num_train_epochs 5 temperature 0.01 learning_rate 2e-5 normlized False 计算相似度的方法 cos_similarity 但是训练的效果特别差 ,设置比不训练的版本在测试集上表现还要差,大家有遇到类似的事情么

相同的文本,使用余弦相似度,微调前相似度在0.8左右,微调后相似度0.5左右,发生明显变化。如果只是召回用取topk的话内容变化倒是不大,影响也不大。想咨询下可能的原因是?个人怀疑原因1是neg样本选择导致,neg样本存在伪负样本。2是epoch太多?

I keep on getting this AssertionError when I try to use FlagEmbedding outside of the provided sample. Can you provide an example of getting around this problem?