My_lsz
My_lsz
+1 docker镜像nvcr.io/nvidia/pytorch:22.08-py3 torch cu11.7 ubuntu20.04 显卡1080ti 测试python实例,选择0号GPU出现如下错误 Processing batch 1 of 1 Line 679: '' failed: no kernel image is available for execution on the device 选择1号GPU 导致机器宕机重启
@milesp-nvidia here is the results: [env.txt](https://github.com/CVCUDA/CV-CUDA/files/10389230/env.txt) Click here to see environment details **git*** Not inside a git repository ***OS Information*** DISTRIB_ID=Ubuntu DISTRIB_RELEASE=20.04 DISTRIB_CODENAME=focal DISTRIB_DESCRIPTION="Ubuntu 20.04.4 LTS" NAME="Ubuntu" VERSION="20.04.4 LTS (Focal...
请问数据集可以再分享一下吗,链接失效了,谢谢
@TccccD 请问您使用的显卡是A100吗,训练GPT3显卡显存的要求是多少呢?谢谢
> > 训练GPT3显卡显存的要求是 > > GPT3 1.3B只要V100 -32G的,16g也可以训,但是batchsize要很低 好的 谢谢!
@Firmament-cyou 您好,使用8卡A30训练完gpt3,推理的时候卡在了这里: using world size: 8, data-parallel-size: 2, tensor-model-parallel size: 4, pipeline-model-parallel size: 1 using torch.float32 for parameters ... initializing torch distributed ... 推理代码如下: from modelscope.hub.snapshot_download import snapshot_download from modelscope.pipelines...
model.eval()前增加model.half().cuda()即可,不过推理出来的有些乱码
下载好了,使用的5.18版本,也自带了模型 开始加载了一下数据库,导致死机了,重新开机之后再运行服务或者运行bat文件都会出现这个问题 尝试了5.17版本,也是同样的问题
更新到4.29.1 和 4.29.2版本出现了这个问题 https://github.com/wenda-LLM/wenda/issues/262 ,有比较合适的transformers版本么?
使用5.10的版本可以正常运行,但是现在有个问题,就是在加载比较大的知识库的时候155K的txt,会导致windows重启,观察显存占用了3个G,没有占满也;加载小的1-2K的txt就不会重启,这个是什么问题呢,是我电脑的原因吗?(一张3090显卡同时显示和运行程序)