FlagEmbedding issues

bge-m3中lexical weights每次返回结果不一样

1

输入是["样例数据-1"]，每次结果不一样，有时候还是空的

charliedream1

There is a bug in the function shuffle_text in data.py

1

aagq

具体是表现为，同样的文本在batch中被转向量和单独一条转向量的结果不同，例如 ``` model = BGEM3FlagModel('model_dir', use_fp16=True,device='cuda:0') text = '益新生技股份有限公司' texts = ['益新生技股份有限公司','Young Fast (SCL)CO.,LTD'] emb = model.encode(text ) embs = model.encode(texts ) emb['dense_vecs'].tolist()[:5] [-0.03167724609375, -0.0196380615234375, -0.0083465576171875, 0.0128631591796875, 0.0007815361022949219] embs['dense_vecs'][0].tolist()[:5] [-0.03167724609375,...

Hspix

cpu部署

1

``` model = FlagModel(fmodel_path, query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章：", use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation ``` 怎么把模型移到cpu上呢？ use_fp16=True 或者False都会使用GPU

wanzhixiao

多条正样本

15

你好，我想请问一下，如果我的数据集中，每个query有很多正样本，应该怎么训练？如果正样本数量非常多，负样本应该如何选择？如果不同query有多个正样本，而且正样本的数目差异很大，应该如何构建数据集并训练？

lichengyang666

BAAI/bge-m3-unsupervised 微调过程中难负例挖掘（hn_mine.py）的疑惑

19

您好，我在对BAAI/bge-m3-unsupervised进行微调过程中参照您提供的toy_finetune_data.jsonl数据格式 {"query": "Five women walk along a beach wearing flip-flops.", "pos": ["Some women with flip-flops on, are walking along the beach"], "neg": ["The 4 women are sitting on the beach.",...

LLLiHaotian

下游任务接分类器问题

1

hello,我现在利用bge_m3模型向量化文本然后接入一个分类器做文本分类,利用稠密向量已经实现了.但是现在利用混合向量由于bge输出的是 len(seq) * 1024的多维向量,这个在输入神经网络的时候有什么解决方法吗

smallblue12138

稀疏向量维度最大是多少

4

请问稀疏向量的最大维度是多少？换言之，token最多有多少个？这么理解是否正确。

wwz0123

MPSTemporaryNDArray initWithDevice:descriptor:] Error: product of dimension sizes > 2**31

1

script.py: ``` from mteb import MTEB from C_MTEB import * from sentence_transformers import SentenceTransformer # Define the sentence-transformers model name model_name = "../../bge-large-zh-v1.5" model = SentenceTransformer(model_name) evaluation = MTEB(task_langs=['zh'], tasks=['DuRetrieval'])...

AlphaNext

FlagEmbedding
FlagEmbedding copied to clipboard

Metadata

bge-m3中lexical weights每次返回结果不一样

reranker的fine-tune教程没有写全

There is a bug in the function shuffle_text in data.py

bge-m3中文本dense向量不一致问题

cpu部署

多条正样本

BAAI/bge-m3-unsupervised 微调过程中难负例挖掘（hn_mine.py）的疑惑

下游任务接分类器问题

稀疏向量维度最大是多少

MPSTemporaryNDArray initWithDevice:descriptor:] Error: product of dimension sizes > 2**31

← Metadata

Owner

Metadata

FlagEmbedding FlagEmbedding copied to clipboard

Metadata

← Metadata

Owner

Metadata

FlagEmbedding
FlagEmbedding copied to clipboard