FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

Retrieval and Retrieval-augmented LLMs

Results 622 FlagEmbedding issues
Sort by recently updated
recently updated
newest added

您好,run_lm_score.py中专门去掉了input ids中的special token,尤其是label中的eos token也被去掉了。我理解的是score就是llm的loss,而eos也是要参与loss计算的,那为什么还要去掉呢?

请问用在langchain中的知识库embedding,使用bge-reranker-large和bge-large有区别吗?我看bge-large只支持中文或英文,而bge-reranker-large能支持双语,是否能直接将bge-large换成bge-reranker-large,来支持双语知识库。

非常优秀的工作👍 目前我面临的问题是: 1、用垂直语料进行continual training,然后拿收敛的model进行fine-tuning发现效果很差,甚至比原始开源模型还差了不少?所以是否是不需要continual training到收敛才选择checkpoint? 2、训练的step和评估的指标如下图,感觉评估的精度随step一直在波动变化,没有呈现一定的规律性?请问这个可能的原因是什么呢? ![Uploading performance_metrics.png…]()

请问llm_embedder这个模型有中文版本的吗 ,我这边测试发现llm_embedder英文版对中文的预测表现准确度不太好,一组同样的数据,在中文下的相似度分数不太对,但在翻译为英文再次计算相似度,是对的。 如下图所示,中文的预测工具结果为第2个分数最高,但实际应该是第三个。翻译为英文后,是对的。 中文的结果: ![image](https://github.com/FlagOpen/FlagEmbedding/assets/38520551/7cc38e03-c3d3-4c91-8bd5-05e13765ff8f) 翻译为英文后的结果: ![image](https://github.com/FlagOpen/FlagEmbedding/assets/38520551/e304c301-047c-4ea2-ae76-70d8a0d43a4d) 代码示例: ![image](https://github.com/FlagOpen/FlagEmbedding/assets/38520551/d39ee804-2a5f-4134-b352-7afa243b80a5)

请问bge-reranker-large有推荐的数据并行多卡推理实现方式吗

cuda11.8 12.2都存在这个问题, embeddings = model.encode(queries) File "/usr/local/python3/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(*args, **kwargs) File "/usr/local/python3/lib/python3.10/site-packages/FlagEmbedding/flag_models.py", line 90, in encode last_hidden_state = self.model(**inputs, return_dict=True).last_hidden_state File "/usr/local/python3/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1518, in _wrapped_call_impl...

您好,感谢你们优秀的工作,关于benchmark的测试以及模型的使用我有三个问题: 1. benchmark测试时候的query是否都需要加instruction,我看到代码中只在lrlm,msc, retrieval的eval程序中添加了instruction,而tool等其他任务上并没有增加,请问这是为什么呢? 2. 如果我想要做一个在训练数据没有的新任务类型,请问我是否可以自行设计instruction,是否有相关的泛化性实验分析以及结果呢?

reranker "map": 0.5106724000079814, "mrr": 0.583640624496244 1.5 "map": 0.656140927550039, "mrr": 0.746971351731846 CMTEB是11月27日的版本,没有使用--add_instruction

感谢您做出这么好的工作!请问您是否会发布bge v1.5的英文有标注微调的完整训练集? 如果不会发布训练集的话,我希望进一步了解bge v1.5的英文有标注微调数据是哪些 我看到了您在[README](https://github.com/FlagOpen/FlagEmbedding/blob/c015278d1c292659684fce570176406e4291ba16/FlagEmbedding/baai_general_embedding/README.md#22-high-quality-supervised-pairs)提到: > Training data: English: data from sentence-transformers: msmarco, nq, hotpotqa, quora, stackexchange_duplicate, s2orc Natural Language interface: NLI others: MEDI, fever 但仍然有几个想请教的问题: - 1.在您给出的[sentence-transformers](https://huggingface.co/datasets/sentence-transformers/embedding-training-data)的链接中没有hotpotqa数据集 - 2.在您给出的[sentence-transformers](https://huggingface.co/datasets/sentence-transformers/embedding-training-data)的链接中有3个名为stackexchange_duplicate和s2orc的数据集,分别是:...