Yang Fan
Yang Fan
@chesp Tesla T4不支持bf16,需要设置模型精度为fp16 可参考[这里](https://github.com/QwenLM/Qwen/blob/main/README_CN.md#-transformers),设置`fp16=True`。
@chesp 您好,由于我们目前提供的docker镜像在运行时使用的是内部自带的微调脚本,而不是外部的脚本,所以您在外部的改动目前是无效的。您可以尝试挂载代码目录,覆盖掉我们提供的默认微调脚本: ```bash CODE_PATH=/path/to/code # 指向Qwen代码目录,包含修改过的微调脚本 docker run --gpus all --rm --name edu-model \ --mount type=bind,source=/root/.cache/modelscope/hub/qwen/Qwen-7B-Chat,target=/data/shared/Qwen/Qwen-7B-Chat \ --mount type=bind,source=/data/qwen/dataset,target=/data/shared/Qwen/data \ --mount type=bind,source=/data/qwen/output/checkpoint,target=/data/shared/Qwen/output_qwen \ --mount type=bind,source=${CODE_PATH},target=/data/shared/Qwen --shm-size=2gb -it qwenllm/qwen:cu117 \ bash...
> torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 86.00 MiB (GPU 0; 14.58 GiB total capacity; 13.80 GiB already allocated; 35.31 MiB free; 13.81 GiB reserved in total by...
> 改用Q-LoRA,微调时报错: ImportError: Found an incompatible version of auto-gptq. Found version 0.4.2, but only versions above 0.5.0 are supported pip list查出机器里安装的auto-gptq是0.6.0版本,这个该怎么解决呢? > >  请拉取最新的Docker镜像,其中修复了此问题,`auto-gptq`版本是0.4.2。
> docker pull qwenllm/qwen:latest 用这个拉的最新镜像,还是报这个错 修复了docker镜像中的相应问题,您可以再拉取一下镜像重试一下
@sheiy @zhudongwork @BUJIDAOVS @boquanzhou 您好,如果您是在Docker中部署72B量化版本模型的话,推理速度变慢是因为之前docker镜像中的auto-gptq版本存在问题(可参考[此issue](https://github.com/QwenLM/Qwen/issues/843#issuecomment-1867660788)) 目前最新版本的docker镜像已修复此问题,可以拉取最新镜像后再尝试一下。
> > 请提供下复现方法哈,比如运行的哪个脚本(cli demo, web demo, vllm inference),还是用哪部分的示例代码直接运行的~ > > 我的也是同样问题,通义千问用Web_DEMO.py加载推理72B量化4版本时,问多几次显存会不断增加,直到爆满后报错(在显存几乎爆满前,点击🧹 Clear History (清除历史),才可以把显存清除。该原因可能是显存将近爆满时运行 torch._C._cuda_emptyCache() 失败)。用的是web demo,报错信息为: > > ``` > torch._C._cuda_emptyCache() > ``` > > RuntimeError: CUDA error: unspecified...
> > > > 请提供下复现方法哈,比如运行的哪个脚本(cli demo, web demo, vllm inference),还是用哪部分的示例代码直接运行的~ > > > > > > > > > 我的也是同样问题,通义千问用Web_DEMO.py加载推理72B量化4版本时,问多几次显存会不断增加,直到爆满后报错(在显存几乎爆满前,点击🧹 Clear History (清除历史),才可以把显存清除。该原因可能是显存将近爆满时运行 torch._C._cuda_emptyCache() 失败)。用的是web demo,报错信息为: > > > ```...
您好,我们这两天更新了`modeling_qwen.py`代码,修复了一些问题,您可以更新到最新版本之后重新尝试一下吗?
@jiangliqin @nightmaredimple 您好,可以提供一下报错的具体命令吗?