ztxz16 comments

Results 137 comments of


                                            ztxz16

chatglm2运行llm.from_hf报错Error: cublas error

这个问题原因还不太确定，有时候是显存爆了导致的

chatglm2运行llm.from_hf报错Error: cublas error

> > 这个问题原因还不太确定，有时候是显存爆了导致的 > > 大佬可以提供转换好的chatglm2-6B模型供下载吗已上传huggingface

chatglm2运行llm.from_hf报错Error: cublas error

> > 这个问题原因还不太确定，有时候是显存爆了导致的 > > 大佬可以提供转换好的chatglm2-6B模型供下载吗用huggingface上的模型可以运行吗

chatglm2运行llm.from_hf报错Error: cublas error

> 可能是显存不够了，因为原始的模型占了13G，新模型又要13G，如果原始模型创建的时候不加载到CUDA上可能可以

chatglm2运行llm.from_hf报错Error: cublas error

> > > > > > > > > 可能是显存不够了，因为原始的模型占了13G，新模型又要13G，如果原始模型创建的时候不加载到CUDA上可能可以 > > 直接加载生成的模型，遇到字比较多的情况，会直接报错退出，这个原因也是因为显存吗？因为我看到显存跟刚加载完差不多。 > > ``` > status = 13 > 9939 159024 128 > Error: cublas error. >...

chatglm2运行llm.from_hf报错Error: cublas error

> 用A10 24G 跑，float16就会报错，改成int8 就没事，估计还是显存不够。 24G够跑 > > > > > > > > > > > > > > > > > 可能是显存不够了，因为原始的模型占了13G，新模型又要13G，如果原始模型创建的时候不加载到CUDA上可能可以 > > > > > >...

chatglm2运行llm.from_hf报错Error: cublas error

> 用A10 24G 跑，float16就会报错，改成int8 就没事，估计还是显存不够。 24G是可以跑fp16的，不过之前的torch模型不能加载到GPU上（或者直接创建fastllm模型）

chatglm2运行llm.from_hf报错Error: cublas error

> > > 用A10 24G 跑，float16就会报错，改成int8 就没事，估计还是显存不够。 > > > > > > 24G是可以跑fp16的，不过之前的torch模型不能加载到GPU上（或者直接创建fastllm模型） > > 就是不要用readme里的快速方式对吧？而是用fastllm直接加载转换之后的模型？嗯，或者创建之前模型的时候不要.cuda()，应该也可以

chatglm2运行llm.from_hf报错Error: cublas error

> 2048的时候爆掉的问题新版本应该已经解决了

chatglm2运行llm.from_hf报错Error: cublas error

> > 我这边也试了下，int8与Int4 显存占用都很多，等大佬优化吧 > > 你好，请问int4的话llm.from_hf(model, tokenizer, dtype="")中的dtype填什么？用原始的模型，然后这里填int4