xiaolvtongxue-zt

Results 3 comments of xiaolvtongxue-zt

有另外一个疑问,我在训练时,使用了quantization_bit_ = 4量化后,后续推理是,加载训练后的模型,是否是自动识别自动量化还是需要自己传入参数?

> 你可以试试swift infer推理哈,然后debug一下。quantization_bit属于运行时量化(使用的是bnb),所以你需要在推理的时候 也制定量化参数。 > > bnb量化的模型不支持vllm加速 我看了相关的推理文档: 1. 不使用vllm框架时,这边如果不进行量化指定,原始模型+微调模型似乎也能按照微调的指令来进行回复。另外,我这边根据推理的文档,在推理时,把量化参数也进行了指定并传入: ``` 1. 指定量化参数: model_kwargs_ = {'device_map': 'auto'} torch_dtype = torch.bfloat16 quantization_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch_dtype, bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=True) model_kwargs_.update({'quantization_config': quantization_config}) 2. 加载模型时传入:...

> 量化模型的merge lora精度损失很大的 建议训完后量化,然后使用vllm 您好,根据上次的反馈,我在这次使用的微调中,直接使用lora微调,并没有使用量化。quantization_bit = 0; 训练模型后,将模型进行合并(为了后续可以使用VLLM进行推理。) ``` CUDA_VISIBLE_DEVICES=0,1 swift export --ckpt_dir './swift_qwen/output/qwen1half-7b-chat-swift/qwen1half-7b-chat/v1-20240416-160243/checkpoint-69500' --sft_type 'lora' --merge_lora true --model_id_or_path './models/models/qwen/Qwen1___5-7B-Chat' ``` 此时发现,这样做,模型依旧未能按照实际微调的结果(即未合并前的模型)来进行回复。 想请问老师,到底时哪一步出现问题了?很是奇怪。