Martin Dong

Results 6 comments of Martin Dong

Kubefate 1.8.0遇到一样问题,rollsite之间通讯报错operation POST not supported

> 没错,量化需要很长时间,不过你可以用pickle将量化后的模型保存,然后下次运行直接用pickle加载再进行之后的步骤。我这样做了之后省去了量化的过程,模型启动很快。关于显存的占用你可以手动对history进行条数限制防止显存不够。 保存: > > > import pickle > > from transformers import AutoModel > > #4或者8 > > quantizationBit = 8 > > model = AutoModel.from_pretrained("chatglm-6b", trust_remote_code=True) > >...

> > > 没错,量化需要很长时间,不过你可以用pickle将量化后的模型保存,然后下次运行直接用pickle加载再进行之后的步骤。我这样做了之后省去了量化的过程,模型启动很快。关于显存的占用你可以手动对history进行条数限制防止显存不够。 保存: > > > > import pickle > > > > from transformers import AutoModel > > > > #4或者8 > > > > quantizationBit =...

能否参考 https://huggingface.co/THUDM/chatglm-6b-int4 做一下量化后的模型?这样加载更快

> > 能否参考 https://huggingface.co/THUDM/chatglm-6b-int4 做一下量化后的模型?这样加载更快 > > 在这里: > > https://huggingface.co/silver/chatglm-6b-int4-slim > > 模型参数文件大小从4.06GB减少到3.78GB。(但是不知道为啥新的ckpt在huggingface的repo里面显示的依然是4.06GB,实际下载的时候大小其实是3.78GB) 感谢,晚上试一下效果

I have the same problem, with CMake 3.22.2, 3.23.2, 3.24.2. Other version info: gcc 9.4.0 nvcc V11.8.89 `cmake .. -DLLAMA_CUBLAS` could succeed if I replace CUDA::cublasLt with absolute path of...