ztxz16

Results 137 comments of ztxz16

这个问题原因还不太确定,有时候是显存爆了导致的

> > 这个问题原因还不太确定,有时候是显存爆了导致的 > > 大佬可以提供转换好的chatglm2-6B模型供下载吗 已上传huggingface

> > 这个问题原因还不太确定,有时候是显存爆了导致的 > > 大佬可以提供转换好的chatglm2-6B模型供下载吗 用huggingface上的模型可以运行吗

> 可能是显存不够了,因为原始的模型占了13G,新模型又要13G,如果原始模型创建的时候不加载到CUDA上可能可以

> > > > > > > > > 可能是显存不够了,因为原始的模型占了13G,新模型又要13G,如果原始模型创建的时候不加载到CUDA上可能可以 > > 直接加载生成的模型,遇到字比较多的情况,会直接报错退出,这个原因也是因为显存吗? 因为我看到显存跟刚加载完差不多。 > > ``` > status = 13 > 9939 159024 128 > Error: cublas error. >...

> 用A10 24G 跑,float16就会报错,改成int8 就没事,估计还是显存不够。 24G够跑 > > > > > > > > > > > > > > > > > 可能是显存不够了,因为原始的模型占了13G,新模型又要13G,如果原始模型创建的时候不加载到CUDA上可能可以 > > > > > >...

> 用A10 24G 跑,float16就会报错,改成int8 就没事,估计还是显存不够。 24G是可以跑fp16的,不过之前的torch模型不能加载到GPU上(或者直接创建fastllm模型)

> > > 用A10 24G 跑,float16就会报错,改成int8 就没事,估计还是显存不够。 > > > > > > 24G是可以跑fp16的,不过之前的torch模型不能加载到GPU上(或者直接创建fastllm模型) > > 就是不要用readme里的快速方式对吧?而是用fastllm直接加载转换之后的模型? 嗯,或者创建之前模型的时候不要.cuda(),应该也可以

> 2048的时候爆掉的问题新版本应该已经解决了

> > 我这边也试了下,int8与Int4 显存占用都很多,等大佬优化吧 > > 你好,请问int4的话llm.from_hf(model, tokenizer, dtype="")中的dtype填什么? 用原始的模型,然后这里填int4