Yang Fan comments

Results 64 comments of


                                            Yang Fan

[BUG] docker run报错，

@chesp Tesla T4不支持bf16，需要设置模型精度为fp16 可参考[这里](https://github.com/QwenLM/Qwen/blob/main/README_CN.md#-transformers)，设置`fp16=True`。

@chesp 您好，由于我们目前提供的docker镜像在运行时使用的是内部自带的微调脚本，而不是外部的脚本，所以您在外部的改动目前是无效的。您可以尝试挂载代码目录，覆盖掉我们提供的默认微调脚本： ```bash CODE_PATH=/path/to/code # 指向Qwen代码目录，包含修改过的微调脚本 docker run --gpus all --rm --name edu-model \ --mount type=bind,source=/root/.cache/modelscope/hub/qwen/Qwen-7B-Chat,target=/data/shared/Qwen/Qwen-7B-Chat \ --mount type=bind,source=/data/qwen/dataset,target=/data/shared/Qwen/data \ --mount type=bind,source=/data/qwen/output/checkpoint,target=/data/shared/Qwen/output_qwen \ --mount type=bind,source=${CODE_PATH},target=/data/shared/Qwen --shm-size=2gb -it qwenllm/qwen:cu117 \ bash...

[BUG] docker run报错，

> torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 86.00 MiB (GPU 0; 14.58 GiB total capacity; 13.80 GiB already allocated; 35.31 MiB free; 13.81 GiB reserved in total by...

[BUG] docker run报错，

> 改用Q-LoRA，微调时报错： ImportError: Found an incompatible version of auto-gptq. Found version 0.4.2, but only versions above 0.5.0 are supported pip list查出机器里安装的auto-gptq是0.6.0版本，这个该怎么解决呢？ > > ![1703749322850](https://private-user-images.githubusercontent.com/8938818/293160870-83602dec-43fc-41c4-a4fd-c9cc67cfa78e.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTEiLCJleHAiOjE3MDM3NDk4NTcsIm5iZiI6MTcwMzc0OTU1NywicGF0aCI6Ii84OTM4ODE4LzI5MzE2MDg3MC04MzYwMmRlYy00M2ZjLTQxYzQtYTRmZC1jOWNjNjdjZmE3OGUucG5nP1gtQW16LUFsZ29yaXRobT1BV1M0LUhNQUMtU0hBMjU2JlgtQW16LUNyZWRlbnRpYWw9QUtJQUlXTkpZQVg0Q1NWRUg1M0ElMkYyMDIzMTIyOCUyRnVzLWVhc3QtMSUyRnMzJTJGYXdzNF9yZXF1ZXN0JlgtQW16LURhdGU9MjAyMzEyMjhUMDc0NTU3WiZYLUFtei1FeHBpcmVzPTMwMCZYLUFtei1TaWduYXR1cmU9YWEwNTAxZGQ5N2MzMjk0NTYxMzM1MGRiYzE2YjJjOTA5NGJkYzE2YTczZjg3YjJiMDk3NjgxZWQwNDgyMDNkNCZYLUFtei1TaWduZWRIZWFkZXJzPWhvc3QmYWN0b3JfaWQ9MCZrZXlfaWQ9MCZyZXBvX2lkPTAifQ.BDvNixMOcxM2EUoK36tb92znUJm3jpUBFsXmeXNH-Lc) 请拉取最新的Docker镜像，其中修复了此问题，`auto-gptq`版本是0.4.2。

[BUG] docker run报错，

> docker pull qwenllm/qwen:latest 用这个拉的最新镜像，还是报这个错修复了docker镜像中的相应问题，您可以再拉取一下镜像重试一下

Qwen-72B-Chat-Int4推理时间

@sheiy @zhudongwork @BUJIDAOVS @boquanzhou 您好，如果您是在Docker中部署72B量化版本模型的话，推理速度变慢是因为之前docker镜像中的auto-gptq版本存在问题（可参考[此issue](https://github.com/QwenLM/Qwen/issues/843#issuecomment-1867660788)）目前最新版本的docker镜像已修复此问题，可以拉取最新镜像后再尝试一下。

int4量化模型存在显存占用逐步增加的情况。且代码无法消除。

> > 请提供下复现方法哈，比如运行的哪个脚本(cli demo, web demo, vllm inference)，还是用哪部分的示例代码直接运行的~ > > 我的也是同样问题，通义千问用Web_DEMO.py加载推理72B量化4版本时，问多几次显存会不断增加，直到爆满后报错（在显存几乎爆满前，点击🧹 Clear History (清除历史),才可以把显存清除。该原因可能是显存将近爆满时运行 torch._C._cuda_emptyCache() 失败）。用的是web demo，报错信息为： > > ``` > torch._C._cuda_emptyCache() > ``` > > RuntimeError: CUDA error: unspecified...

int4量化模型存在显存占用逐步增加的情况。且代码无法消除。

> > > > 请提供下复现方法哈，比如运行的哪个脚本(cli demo, web demo, vllm inference)，还是用哪部分的示例代码直接运行的~ > > > > > > > > > 我的也是同样问题，通义千问用Web_DEMO.py加载推理72B量化4版本时，问多几次显存会不断增加，直到爆满后报错（在显存几乎爆满前，点击🧹 Clear History (清除历史),才可以把显存清除。该原因可能是显存将近爆满时运行 torch._C._cuda_emptyCache() 失败）。用的是web demo，报错信息为： > > > ```...

[BUG] <title>QWen-72B-Chat-INT4 Lora微调失败

您好，我们这两天更新了`modeling_qwen.py`代码，修复了一些问题，您可以更新到最新版本之后重新尝试一下吗？

[BUG] 多GPU LoRA报错：ssertionError: {'id': 323, 'status': 'NOT_AVAILABLE', 'numel': 0, 'ds_numel': 0, 'shape': (0,), 'ds_shape': (0,), 'requires_grad': True, 'grad_shape': None, 'persist': True, 'active_sub_modules': {7}, 'ds_tensor.shape': torch.Size([0])}

@jiangliqin @nightmaredimple 您好，可以提供一下报错的具体命令吗？