Zhengxiao Du
Zhengxiao Du
欢迎针对 ChatGLM-6B 的 badcase 提交反馈:https://github.com/THUDM/ChatGLM-6B/tree/main/improve
Thanks for pointing out this. Already fixed.
应该是计算中出现了NaN。你的 CUDA 版本是多少?
有可能是显卡计算的精度误差导致的。只要生成结果都合理即可吧
内存不够了,100663296 bytes只有95MB。可以检查一下计算机的空余内存,是否有别的程序在占用大量内存
很有价值的实现,我需要检验一下流式解码和原 tokenizer 是否是等价的。可能存在的问题是现在 `stream_generate` 会对模型的输出做一些后处理,https://huggingface.co/THUDM/chatglm-6b/blob/main/modeling_chatglm.py#L1251
The error is usually caused by running out of GPU memorg https://discuss.pytorch.org/t/cuda-error-cublas-status-not-initialized-when-calling-cublascreate-handle/125450
这是显存爆了,跟模型没关系吧
编译并行 kernel 还需要 `openmp`,如果失败的话会 fallback 到非并行 kernel,你可以看一下后面还有什么报错