FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

Retrieval and Retrieval-augmented LLMs

Results 622 FlagEmbedding issues
Sort by recently updated
recently updated
newest added

输入是["样例数据-1"],每次结果不一样,有时候还是空的

如题,感觉只写了一半,麻烦作者解答下,感谢。

具体是表现为,同样的文本在batch中被转向量和单独一条转向量的结果不同,例如 ``` model = BGEM3FlagModel('model_dir', use_fp16=True,device='cuda:0') text = '益新生技股份有限公司' texts = ['益新生技股份有限公司','Young Fast (SCL)CO.,LTD'] emb = model.encode(text ) embs = model.encode(texts ) emb['dense_vecs'].tolist()[:5] [-0.03167724609375, -0.0196380615234375, -0.0083465576171875, 0.0128631591796875, 0.0007815361022949219] embs['dense_vecs'][0].tolist()[:5] [-0.03167724609375,...

``` model = FlagModel(fmodel_path, query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章:", use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation ``` 怎么把模型移到cpu上呢? use_fp16=True 或者False都会使用GPU

你好,我想请问一下,如果我的数据集中,每个query有很多正样本,应该怎么训练?如果正样本数量非常多,负样本应该如何选择?如果不同query有多个正样本,而且正样本的数目差异很大,应该如何构建数据集并训练?

您好,我在对BAAI/bge-m3-unsupervised进行微调过程中参照您提供的toy_finetune_data.jsonl数据格式 {"query": "Five women walk along a beach wearing flip-flops.", "pos": ["Some women with flip-flops on, are walking along the beach"], "neg": ["The 4 women are sitting on the beach.",...

hello,我现在利用bge_m3模型向量化文本然后接入一个分类器做文本分类,利用稠密向量已经实现了.但是现在利用混合向量由于bge输出的是 len(seq) * 1024的多维向量,这个在输入神经网络的时候有什么解决方法吗

请问稀疏向量的最大维度是多少?换言之,token最多有多少个?这么理解是否正确。

script.py: ``` from mteb import MTEB from C_MTEB import * from sentence_transformers import SentenceTransformer # Define the sentence-transformers model name model_name = "../../bge-large-zh-v1.5" model = SentenceTransformer(model_name) evaluation = MTEB(task_langs=['zh'], tasks=['DuRetrieval'])...