FlagEmbedding
FlagEmbedding copied to clipboard
Retrieval and Retrieval-augmented LLMs
作者你好,我在微调bge-multilingual-gemma2模型的时候,对显存的使用觉得比较奇怪。按道理来说,lora微调一个9b的模型显存的使用应该是20到40g左右,但是我在batch_size等都设置为1的时候,还是需要60多g,是不是我的设置有哪些地方不太合理。 配置信息如下: torchrun --nproc_per_node 1 \ -m FlagEmbedding.finetune.reranker.decoder_only.base \ --model_name_or_path /root/autodl-tmp/model \ --use_lora True \ --lora_rank 32\ --lora_alpha 64 \ --use_flash_attn False \ --target_modules q_proj k_proj v_proj o_proj \ --save_merged_lora_model...
单卡训练
能只用单卡吗,多卡通信有问题
I followed the code below to fine-tune the model: ```bash torchrun --nproc_per_node 2 \ -m FlagEmbedding.finetune.reranker.decoder_only.base \ --model_name_or_path BAAI/bge-reranker-v2-gemma \ --use_lora True \ --lora_rank 32 \ --lora_alpha 64 \ --use_flash_attn...
请教下如何解决OOM,过程中,观察到只占用了GPU 0,其他几个GPU都没用到。 4张Tesla-V100-16G,参数配置: torchrun --nproc_per_node 1 \ -m FlagEmbedding.finetune.embedder.decoder_only.base \ --model_name_or_path BAAI/bge-multilingual-gemma2 \ --cache_dir ./cache/model \ --use_lora True \ --lora_rank 32 \ --lora_alpha 64 \ --target_modules q_proj k_proj v_proj o_proj...
I finetuned 'BAAI/bge-m3' with the script ``` nohup torchrun --nproc_per_node 8 \ --master_port 29505 \ -m FlagEmbedding.finetune.embedder.encoder_only.m3 \ --model_name_or_path ../BAAI/bge-m3 \ --cache_dir ../cache/model \ --train_data ../general_train_data/mini-nq-like-general-train \ --cache_path ../cache/data \...
#微调模型加载 model_path = '/home/fintuned_model/remini_hardmined_fintuned10_rawmodel/checkpoint-1083' tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True, torch_dtype=torch.bfloat16) # 将模型转移到 GPU device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = model.to(device) model.eval() file_path = '/home/test_model/result/全部底库_500测试集召回结果.xlsx'...
Traceback (most recent call last): File "/root/autodl-tmp/FlagEmbedding/quickstart.py", line 6, in from FlagEmbedding import FlagAutoModel File "/root/autodl-tmp/FlagEmbedding/FlagEmbedding/__init__.py", line 2, in from .evaluation import * File "/root/autodl-tmp/FlagEmbedding/FlagEmbedding/evaluation/__init__.py", line 1, in from .air_bench...
已安装faiss-gpu-cu11,遇到以下报错何解?感谢~~ 机器:4*v100 16G 运行命令: python hn_mine.py \ --input_file toy_finetune_data.jsonl \ --output_file toy_finetune_data_minedHN.jsonl \ --range_for_sampling 5-8 \ --negative_number 2 \ --use_gpu_for_searching \ --embedder_name_or_path ../../BAAI/bge-m3 inferencing embedding for corpus (number=80)-------------- initial target...
问一个小白的问题,我就是想让一些句子与另一些句子向量更接近,还有一些句子向量更远,是组织成有query,pos和neg的训练数据,微调就可以吗? 训练数据中不用再加上pos_scores,neg_scores,prompt和type这些吧? 微调时执行的命令参考 https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune/embedder#2-bge-m3 吗?
我使用旧版本的代码做embedding模型的预训练,在两张A100上进行测试,通过nvitop检测到cpu利用率100%了,但是GPU的利用率只有小部分时间是100%,其余时间都是0,我尝试调整dataloader_num_workers,但是并没有效果。我的脚本如下: ```bash CUDA_VISIBLE_DEVICES=0,1 torchrun --master_port 20036 --nproc_per_node 2 \ -m FlagEmbedding.baai_general_embedding.retromae_pretrain.run \ --output_dir /root/data1/bge-large-zh-v1.5-test \ --model_name_or_path /root/data1/huggingface/BAAI/bge-large-zh-v1.5 \ --train_data /root/data1/BAAI_DATA/PreTrain-Data \ --learning_rate 2e-5 \ --num_train_epochs 2 \ --per_device_train_batch_size 16 \...