fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

chatglm2转成fastllm以后推理时现存占用明显增多

Open TaoKai opened this issue 1 year ago • 1 comments

大佬您好, 我这边测试chatglm2 fp16模型,pytorch的模型单句推理可输入的token最大长度约7000,但是转成fastllm以后token长度2600左右显存就会爆掉(我的显卡是V100,显存16G,模型参数载入后占用12G);请问是什么原因呢?您的代码可否优化解决?谢谢

TaoKai avatar Aug 14 '23 02:08 TaoKai

我也是,同样有这个问题

HelloSZS avatar Nov 01 '23 05:11 HelloSZS