fastllm
fastllm copied to clipboard
chatglm2转成fastllm以后推理时现存占用明显增多
大佬您好, 我这边测试chatglm2 fp16模型,pytorch的模型单句推理可输入的token最大长度约7000,但是转成fastllm以后token长度2600左右显存就会爆掉(我的显卡是V100,显存16G,模型参数载入后占用12G);请问是什么原因呢?您的代码可否优化解决?谢谢
我也是,同样有这个问题