xiaolvtongxue-zt comments

Results 3 comments of


xiaolvtongxue-zt

微调Qwen1___5-7B-Chat，4比特量化，为何还需要占用这么多显存？

有另外一个疑问，我在训练时，使用了quantization_bit_ = 4量化后，后续推理是，加载训练后的模型，是否是自动识别自动量化还是需要自己传入参数？

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。后续在推理的时候，如何使用vllm框架进行推理？？

> 你可以试试swift infer推理哈，然后debug一下。quantization_bit属于运行时量化（使用的是bnb），所以你需要在推理的时候也制定量化参数。 > > bnb量化的模型不支持vllm加速我看了相关的推理文档： 1. 不使用vllm框架时，这边如果不进行量化指定，原始模型+微调模型似乎也能按照微调的指令来进行回复。另外，我这边根据推理的文档，在推理时，把量化参数也进行了指定并传入： ``` 1. 指定量化参数： model_kwargs_ = {'device_map': 'auto'} torch_dtype = torch.bfloat16 quantization_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch_dtype, bnb_4bit_quant_type='nf4', bnb_4bit_use_double_quant=True) model_kwargs_.update({'quantization_config': quantization_config}) 2. 加载模型时传入：...

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。后续在推理的时候，如何使用vllm框架进行推理？？

> 量化模型的merge lora精度损失很大的建议训完后量化，然后使用vllm 您好，根据上次的反馈，我在这次使用的微调中，直接使用lora微调，并没有使用量化。quantization_bit = 0；训练模型后，将模型进行合并(为了后续可以使用VLLM进行推理。) ``` CUDA_VISIBLE_DEVICES=0,1 swift export --ckpt_dir './swift_qwen/output/qwen1half-7b-chat-swift/qwen1half-7b-chat/v1-20240416-160243/checkpoint-69500' --sft_type 'lora' --merge_lora true --model_id_or_path './models/models/qwen/Qwen1___5-7B-Chat' ``` 此时发现，这样做，模型依旧未能按照实际微调的结果（即未合并前的模型）来进行回复。想请问老师，到底时哪一步出现问题了？很是奇怪。

xiaolvtongxue-zt

微调Qwen1___5-7B-Chat，4比特量化，为何还需要占用这么多显存？

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。 后续在推理的时候，如何使用vllm框架进行推理？？

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。 后续在推理的时候，如何使用vllm框架进行推理？？

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。后续在推理的时候，如何使用vllm框架进行推理？？

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。后续在推理的时候，如何使用vllm框架进行推理？？