FlagEmbedding
FlagEmbedding copied to clipboard
Retrieval and Retrieval-augmented LLMs
GPU:4*RTX 4090 24G 代码是: ``` from FlagEmbedding import BGEM3FlagModel model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True) sentences_1 = ["What is BGE M3?", "Defination of BM25"] sentences_2 = ["BGE M3 is an embedding model...
请问我微调Embedding模型时,按照三元组{query,pos,neg}制作数据集,query是问题,pos是答案好一点,还是答案所在的段落好一点,我的应用场景是检索增强生成
A100测试 code: ``` import time from FlagEmbedding import BGEM3FlagModel model = BGEM3FlagModel('/home/admin/bge-m3', use_fp16=True) sentences_1 = ["What is BGE M3?", "Defination of BM25"] sentences_2 = ["BGE M3 is an embedding model...
FlagEmbedding/FlagEmbedding/baai_general_embedding/finetune/modeling.py 文件中 ```python if self.use_inbatch_neg: scores = self.compute_similarity(q_reps, p_reps) / self.temperature # B B*G scores = scores.view(q_reps.size(0), -1) target = torch.arange(scores.size(0), device=scores.device, dtype=torch.long) target = target * (p_reps.size(0) // q_reps.size(0))...
import os os.environ["CUDA_VISIBLE_DEVICES"]="1,5" from FlagEmbedding import BGEM3FlagModel model = BGEM3FlagModel('BAAI_bge-m3', use_fp16=True) 我再使用上述代码调用显卡时发现如果我调用两张显卡,那么程序能正常运行,但是显存占用差距特别大,第一张卡显存占用可以超过40G,第二张卡占用只有4G左右;一旦我设置的显卡数量超过2张卡,就会报错,报错信息是: ``` Traceback (most recent call last): File "inference_m3.py", line 44, in score = model.compute_score(batch, max_passage_length=1024, weights_for_different_modes=[0.4, 0.2, 0.4])...
我们在使用MTP全量数据进行训练的时候,发现收敛速度非常快,差不多0.1个epoch就收敛了。想问下这种还有必要训练多个epoch吗?我们使用的基础模型不是bge,所以不会有重复训练的问题。如下是我的一些参数设置
您好,想问一下bge-m3的基座模型是什么
请问下,我加载bge-rerank模型的tokenizer,下面的代码解析出来的如下: ``` query='中国人你好' title='你好中国人' res=tokenizer.encode_plus( query, title, add_special_tokens=True, max_length=512, # padding='max_length', truncation=True, # return_token_type_ids=True, return_tensors='pt' ) ``` {'input_ids': tensor([[ 0, 6, 75224, 124084, 2, 2, 6, 124084, 75224, 2]]), 'attention_mask':...
 bge-m3dui对显卡gpu要求很高。 之前我用bge-v1.5能够轻轻松松同时对长度为10000+的字符串数组进行编码,但在使用bge-m3同时对长度为10000+的字符串数组进行编码时,报错了,有什么办法能够解决吗?
如何在启动时直接关闭这个wandb呢,就不用每次都选了,启动训练命令如下: torchrun --nproc_per_node 8 \ -m FlagEmbedding.baai_general_embedding.finetune.run \ --output_dir ./output_1115_cleaned_data_8gpu \ --model_name_or_path /work/share/embed/model/bge-large-zh \ --train_data /work/share/embed/data/results/qa_after_cluster.jsonl \ --learning_rate 1e-5 \ --fp16 \ --num_train_epochs 3 \ --per_device_train_batch_size 1 \ --dataloader_drop_last True...