FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

Retrieval and Retrieval-augmented LLMs

Results 622 FlagEmbedding issues
Sort by recently updated
recently updated
newest added

在实际使用中,我发现在领域知识上bge-reranker-large可能会造成由bge-large-zh-v1.5得到的top3的性能下降,但是不知道具体问题出在哪里,使用方法是按照官方说明使用的,如下: ``` import torch from transformers import AutoModelForSequenceClassification, AutoTokenizer, BatchEncoding, PreTrainedTokenizerFast tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-reranker-base') model = AutoModelForSequenceClassification.from_pretrained('BAAI/bge-reranker-base') model.eval() pairs = [['what is panda?', 'hi'], ['what is panda?', 'The giant panda...

首先感谢!非常棒的开源工作,对我的研究帮助很大 但开源的数据集中英文加起来有500多G,这实在是太大了,无论是下载还是处理都几乎无法在一台常规机器上完成 我注意到数据集的格式是{"query": str, "pos": List[str], "neg":List[str]} 是否可以精简出一版只有一个pos和一个neg的数据集版本 pos随机取一个,neg也随机取一个或者用现有的bge模型sample出一个都可以 这将会非常有帮助,谢谢

作者您好,感谢你们优秀的工作!我在尝试运行你们的代码以加深我对你们的工作的理解时,发现了一个问题,想请问一下: 
对于llm-embedder,我在尝试针对icl任务运行run_lm_score.py的时候,发现该项目提供的数据集中icl的train.json没有query_id与answers,且我发现process_lm_scoring函数下的_process子函数里并没有针对‘icl’任务构建template,如果直接运行的话应该会报NotImplementedError。想请问下作者我该如何针对当前数据集中的icl的train.json来获取llm的score呢。

MTEB has updated the Chinese list, and Baichuan-Text-Embedding ranks first. I would like to know how to test it?

请问数据集里正样本的长度很长超过128,是怎么处理的呢

您好,问下您还能评测这个mteb/amazon_reviews_multi数据吗,好像这个数据集已经disable了

作者您好,关于llm teacher score,有个问题想请问下: 1. 请问产生数据集中的这些llm score大概需要在何种计算设备上运行多长时间呢。

cuda 11.6 torch 1.13.1 torch cu 11.6 报错如下: ![image](https://github.com/FlagOpen/FlagEmbedding/assets/35884699/5bad5f36-70c5-46b4-a62a-0db9d22ddb32) 请问是否是版本过低的原因?

![TW8U6CAT2~}RQARHC()KBOV](https://github.com/FlagOpen/FlagEmbedding/assets/48902561/d9c060dd-903d-473d-8b60-def9f53f087f) ![5@J@5}W8E%DH6A8ECKO)G7I](https://github.com/FlagOpen/FlagEmbedding/assets/48902561/a273bcbd-2183-4218-a83b-58715ef040e2) 发现有类似图中的差异,哪个更准呀?