Yang Fan

Results 64 comments of Yang Fan

@chesp Tesla T4不支持bf16,需要设置模型精度为fp16 可参考[这里](https://github.com/QwenLM/Qwen/blob/main/README_CN.md#-transformers),设置`fp16=True`。

@chesp 您好,由于我们目前提供的docker镜像在运行时使用的是内部自带的微调脚本,而不是外部的脚本,所以您在外部的改动目前是无效的。您可以尝试挂载代码目录,覆盖掉我们提供的默认微调脚本: ```bash CODE_PATH=/path/to/code # 指向Qwen代码目录,包含修改过的微调脚本 docker run --gpus all --rm --name edu-model \ --mount type=bind,source=/root/.cache/modelscope/hub/qwen/Qwen-7B-Chat,target=/data/shared/Qwen/Qwen-7B-Chat \ --mount type=bind,source=/data/qwen/dataset,target=/data/shared/Qwen/data \ --mount type=bind,source=/data/qwen/output/checkpoint,target=/data/shared/Qwen/output_qwen \ --mount type=bind,source=${CODE_PATH},target=/data/shared/Qwen --shm-size=2gb -it qwenllm/qwen:cu117 \ bash...

> torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 86.00 MiB (GPU 0; 14.58 GiB total capacity; 13.80 GiB already allocated; 35.31 MiB free; 13.81 GiB reserved in total by...

> 改用Q-LoRA,微调时报错: ImportError: Found an incompatible version of auto-gptq. Found version 0.4.2, but only versions above 0.5.0 are supported pip list查出机器里安装的auto-gptq是0.6.0版本,这个该怎么解决呢? > > ![1703749322850](https://private-user-images.githubusercontent.com/8938818/293160870-83602dec-43fc-41c4-a4fd-c9cc67cfa78e.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTEiLCJleHAiOjE3MDM3NDk4NTcsIm5iZiI6MTcwMzc0OTU1NywicGF0aCI6Ii84OTM4ODE4LzI5MzE2MDg3MC04MzYwMmRlYy00M2ZjLTQxYzQtYTRmZC1jOWNjNjdjZmE3OGUucG5nP1gtQW16LUFsZ29yaXRobT1BV1M0LUhNQUMtU0hBMjU2JlgtQW16LUNyZWRlbnRpYWw9QUtJQUlXTkpZQVg0Q1NWRUg1M0ElMkYyMDIzMTIyOCUyRnVzLWVhc3QtMSUyRnMzJTJGYXdzNF9yZXF1ZXN0JlgtQW16LURhdGU9MjAyMzEyMjhUMDc0NTU3WiZYLUFtei1FeHBpcmVzPTMwMCZYLUFtei1TaWduYXR1cmU9YWEwNTAxZGQ5N2MzMjk0NTYxMzM1MGRiYzE2YjJjOTA5NGJkYzE2YTczZjg3YjJiMDk3NjgxZWQwNDgyMDNkNCZYLUFtei1TaWduZWRIZWFkZXJzPWhvc3QmYWN0b3JfaWQ9MCZrZXlfaWQ9MCZyZXBvX2lkPTAifQ.BDvNixMOcxM2EUoK36tb92znUJm3jpUBFsXmeXNH-Lc) 请拉取最新的Docker镜像,其中修复了此问题,`auto-gptq`版本是0.4.2。

> docker pull qwenllm/qwen:latest 用这个拉的最新镜像,还是报这个错 修复了docker镜像中的相应问题,您可以再拉取一下镜像重试一下

@sheiy @zhudongwork @BUJIDAOVS @boquanzhou 您好,如果您是在Docker中部署72B量化版本模型的话,推理速度变慢是因为之前docker镜像中的auto-gptq版本存在问题(可参考[此issue](https://github.com/QwenLM/Qwen/issues/843#issuecomment-1867660788)) 目前最新版本的docker镜像已修复此问题,可以拉取最新镜像后再尝试一下。

> > 请提供下复现方法哈,比如运行的哪个脚本(cli demo, web demo, vllm inference),还是用哪部分的示例代码直接运行的~ > > 我的也是同样问题,通义千问用Web_DEMO.py加载推理72B量化4版本时,问多几次显存会不断增加,直到爆满后报错(在显存几乎爆满前,点击🧹 Clear History (清除历史),才可以把显存清除。该原因可能是显存将近爆满时运行 torch._C._cuda_emptyCache() 失败)。用的是web demo,报错信息为: > > ``` > torch._C._cuda_emptyCache() > ``` > > RuntimeError: CUDA error: unspecified...

> > > > 请提供下复现方法哈,比如运行的哪个脚本(cli demo, web demo, vllm inference),还是用哪部分的示例代码直接运行的~ > > > > > > > > > 我的也是同样问题,通义千问用Web_DEMO.py加载推理72B量化4版本时,问多几次显存会不断增加,直到爆满后报错(在显存几乎爆满前,点击🧹 Clear History (清除历史),才可以把显存清除。该原因可能是显存将近爆满时运行 torch._C._cuda_emptyCache() 失败)。用的是web demo,报错信息为: > > > ```...

您好,我们这两天更新了`modeling_qwen.py`代码,修复了一些问题,您可以更新到最新版本之后重新尝试一下吗?