Martin Dong comments

Results 6 comments of


                                            Martin Dong

ValueError(f"retcode err, callback result is {result}")

Kubefate 1.8.0遇到一样问题，rollsite之间通讯报错operation POST not supported

[BUG/Help] 在尝试运行8bit量化下的模型的时候，程序载入显存使用GPU十分缓慢；但我FP16精度加载时可以较为快速成功载入显存

> 没错，量化需要很长时间，不过你可以用pickle将量化后的模型保存，然后下次运行直接用pickle加载再进行之后的步骤。我这样做了之后省去了量化的过程，模型启动很快。关于显存的占用你可以手动对history进行条数限制防止显存不够。保存： > > > import pickle > > from transformers import AutoModel > > #4或者8 > > quantizationBit = 8 > > model = AutoModel.from_pretrained("chatglm-6b", trust_remote_code=True) > >...

Martin Dong

ValueError(f"retcode err, callback result is {result}")

[BUG/Help] 在尝试运行8bit量化下的模型的时候，程序载入显存使用GPU十分缓慢；但我FP16精度加载时可以较为快速成功载入显存

[BUG/Help] 在尝试运行8bit量化下的模型的时候，程序载入显存使用GPU十分缓慢；但我FP16精度加载时可以较为快速成功载入显存

[Feature][Done] 低显存版ChatGLM-6B，性能完全一致。 Slim version of ChatGLM-6B by removing 20K image tokens

[Feature][Done] 低显存版ChatGLM-6B，性能完全一致。 Slim version of ChatGLM-6B by removing 20K image tokens

[Bug(CMake 3.17)] CUDA::cublasLt not found but can be specified absolutely