xiaolvtongxue-zt issues

Results 5 issues of


xiaolvtongxue-zt

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。后续在推理的时候，如何使用vllm框架进行推理？？

请问老师们：在训练时候使用了 "Qwen1___5-7B-Chat" 模型进行微调，同时在训练参数中，使用quantization_bit_ = 4，进行4bit量化的训练。后续在推理的时候，我按照提供的例子进行导入 ``` model, tokenizer = get_model_tokenizer(model_type =model_type, model_id_or_path=output_dir_, model_kwargs={'device_map': 'auto'}) model.generation_config.max_new_tokens = 1024*3 model.generation_config.max_length = 1024*2 self.model = Swift.from_pretrained(model, ckpt_dir, inference_mode=True) self.template = get_template(template_type,...

微调Qwen1___5-7B-Chat，4比特量化，为何还需要占用这么多显存？

这是我微调模型时的参数： ``` SftArguments( model_type='qwen1half-7b-chat', model_id_or_path='../models/models/qwen/Qwen1___5-7B-Chat', model_revision='master', sft_type='lora', freeze_parameters=0.0, additional_trainable_parameters=[], tuner_backend='swift', template_type='qwen', output_dir='/home/centos/xiaolv/太安模型微调/swift_qwen/output/qwen1half-7b-chat-swift/qwen1half-7b-chat/v1-20240327-083203', add_output_dir_suffix=True, ddp_backend='nccl', ddp_find_unused_parameters=None, ddp_broadcast_buffers=None, seed=42, resume_from_checkpoint=None, dtype='bf16', dataset=['_custom_dataset'], dataset_seed=42, dataset_test_ratio=0.01, train_dataset_sample=-1, train_dataset_mix_ratio=None, train_dataset_mix_ds=['ms-bench'], val_dataset_sample=None, use_loss_scale=False, system='You are a...

question

基于上次提的问题#691，后续改进后似乎依旧不能按微调的情况回复。

基于上次提的问题#691，后续改进后似乎依旧不能按微调的情况回复。 > 量化模型的merge lora精度损失很大的建议训完后量化，然后使用vllm 您好，根据上次的反馈，我在这次使用的微调中，直接使用lora微调，并没有使用量化。quantization_bit = 0；训练模型后，将模型进行合并(为了后续可以使用VLLM进行推理。) ``` CUDA_VISIBLE_DEVICES=0,1 swift export --ckpt_dir './swift_qwen/output/qwen1half-7b-chat-swift/qwen1half-7b-chat/v1-20240416-160243/checkpoint-69500' --sft_type 'lora' --merge_lora true --model_id_or_path './models/models/qwen/Qwen1___5-7B-Chat' ``` 此时发现，这样做，模型依旧未能按照实际微调的结果（即未合并前的模型）来进行回复。想请问老师，到底时哪一步出现问题了？很是奇怪。

Traceback (most recent call last): File "/home/user/.local/lib/python3.10/site-packages/gradio/queueing.py", line 347, in process_events client_awake = await self.gather_event_data(event) File "/home/user/.local/lib/python3.10/site-packages/gradio/queueing.py", line 220, in gather_event_data data, client_awake = await self.get_message(event, timeout=receive_timeout) File "/home/user/.local/lib/python3.10/site-packages/gradio/queueing.py", line 456, in get_message return PredictBody(**data), True File "/home/user/.local/lib/python3.10/site-packages/pydantic/main.py", line 150, in init __pydantic_self.pydantic_validator__.validate_python(data, self_instance=__pydantic_self__) pydantic_core._pydantic_core.ValidationError: 1 validation error for PredictBody event_id Field required [type=missing, input_value={'fn_index': 1, 'data': [...on_hash': 'ss70oxjj9qc'}, input_type=dict] For further information visit https://errors.pydantic.dev/2.1.2/v/missing

使用最新的版本，运行是一直在等待，刷新页面后，看到的报错信息

CaptchaChallenge: User needs to solve CAPTCHA to continue

想问一下，这个人机验证的操作，能否突破一下呢？

xiaolvtongxue-zt

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。 后续在推理的时候，如何使用vllm框架进行推理？？

微调Qwen1___5-7B-Chat，4比特量化，为何还需要占用这么多显存？

基于上次提的问题#691，后续改进后似乎依旧不能按微调的情况回复。

CaptchaChallenge: User needs to solve CAPTCHA to continue

训练使用 "Qwen1___5-7B-Chat" ，使用quantization_bit_ = 4。后续在推理的时候，如何使用vllm框架进行推理？？