fastllm chatglm2转成fastllm以后推理时现存占用明显增多

chatglm2转成fastllm以后推理时现存占用明显增多

Open TaoKai opened this issue 1 year ago • 1 comments

大佬您好，我这边测试chatglm2 fp16模型，pytorch的模型单句推理可输入的token最大长度约7000，但是转成fastllm以后token长度2600左右显存就会爆掉（我的显卡是V100，显存16G，模型参数载入后占用12G）；请问是什么原因呢？您的代码可否优化解决？谢谢

Aug 14 '23 02:08 TaoKai

我也是，同样有这个问题

Nov 01 '23 05:11 HelloSZS