FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

Retrieval and Retrieval-augmented LLMs

Results 622 FlagEmbedding issues
Sort by recently updated
recently updated
newest added

在pretrain之后,保存的文件夹里的内容,不仅保存有checkpoint-xxxx文件夹,还有encoder_model 文件夹,还有pytorch_model.bin,training_args.bin 文件。对于checkpoint-xxxx文件夹,里面还有encoder_model文件夹,里面也有pytorch_model.bin文件。我现在有四个选择:1. 用checkpoint-xxxx文件夹里面的pytorch_model.bin,2. 用encoder_model/ 文件夹里面的pytorch_model.bin, 3. 用pytorch_model.bin 文件。4. 用checkpoint-xxxx文件夹里面的encoder_model文件夹里面的pytorch_model.bin 文件,如此众多的pytorch_model.bin 不知道该用哪一个。 ![Uploading 1.png…]()

本人是bge的深度使用者,完成了embedding、reranker的部署、推理、微调全链路跑通与评测,目前发现一个问题,提出来,供大家思考: 首先给出我的数据结论,关键数据已脱敏处理,一个箭头代表5%提升或下降,提升或下降是指与【只embedding不reranker】做对比: 微调前embedding+微调前reranker叠加使用:↑ 微调前embedding+微调后reranker叠加使用:↑↑ 微调后embedding+微调前reranker叠加使用:↓ 微调后embedding+微调后reranker叠加使用:↓↓↓ 也就是说,对于微调后的embedding效果而言,叠加reranker会导致效果更差,我个人感觉是:同样的微调方式(难负例),微调后的reranker效果跟不上embedding的效果,导致叠加会变坏。 后来,我针对reranker的微调方式进行修改再尝试,具体是将难负例挖掘的向量模型切换成我微调后的embedding模型(之前用的都是微调前的),结果发现了一个更令人震惊的事情,不管我怎么修改reranker训练数据:拆条/不拆条,增加neg数量从15->100,无一例外,训练loss全部不再收敛,训练后模型推理丧失多样性,所有的输出全部为同一个值

There is a table in the paper mentioning the data splits (train-test) of every domain. But the finetuning-related details are not there, can you please provide the finetuning details as...

你好,请问我现在有很多正样本,很少量的负样本。其中有一个问题是,我的正样本很多都是可以通过正则化获得,不需要用向量检索,我是用向量更多想对语义信息进行一个补充,请问想要做到这种效果,该怎么构建数据集。 目前已经跑了一轮微调,发现不仅负样本离得更远了,正样本也跟着更远了。

我采用随机抽取非positive文章片段,想知道有没有更好的选择,谢谢大佬

暂时没法在自己的数据集上构造query和正负样本数据。请问只做无监督微调能否让模型更适应领域数据?如果可以,能否提供相应的代码示例呢?(看到的教程都是有监督微调的)

score = reranker.compute_score(['query', 'passage']) print(score) 上面的query和passage,能够有效支持的文本长度有没有限制?如果有限制,是多少?如果超过长度,模型会如何处理?

作者,您好。我使用spaCy对文档处理,部分文本长度超过512,您提供的模型只能做截断处理吧?能否调整模型,适应最大文本长度呢?还是说超过512后,性能提升少没有意义

the downstrearm task may be chunk text retrieval or llm qa task. If OK, i will raise PR thanks BR Yazhou