fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

相比chatGLM原版,是不是显存占用更多了?

Open DabiaoMa opened this issue 1 year ago • 4 comments

chatGLM-6B,fp16,batch=6,输入长度2000是可以支持的 chatGLM-6B+fastll, fp16,batch=4,输入长度需要<=1300, 不然显存会爆。速度确实提升了很多。 使用的是V100,32G单卡 fastllm加速是不是会利用显存占用换取速度啊?

DabiaoMa avatar Jul 25 '23 03:07 DabiaoMa

不是,是因为fastllm中间运算用的是FP32... (因为fastllm早期是纯CPU加速项目,所以中间层没弄半精度) 先画个饼,之后支持中间层用半精度计算之后显存会减小,速度也会变快

ztxz16 avatar Jul 25 '23 03:07 ztxz16

厉害了!还能再加速

DabiaoMa avatar Jul 25 '23 06:07 DabiaoMa

@ztxz16 近期有考虑支持在android上支持opencl推理吗?或者通过tvm支持opencl?

ningpengtao-coder avatar Jul 25 '23 09:07 ningpengtao-coder

同求安卓端opencl支持

Jimskns avatar Feb 27 '24 07:02 Jimskns