参考chatglm的int8来低成本部署moss

Open Tongjilibo opened this issue 2 years ago • 1 comments

参考chatglm-6b的moss的int8量化部署，单卡最低占用约18个G，此外也有转chatglm-6b、bella、llama-7b的推理(含量化版本，单卡12G可跑)及微调，见bert4torch

Apr 22 '23 14:04 Tongjilibo

@Tongjilibo 今天会支持moss-moon-sft和moss-moon-sft-plugin的4bit 8bit版本

Apr 22 '23 14:04 txsun1997

已支持，请check README开源清单：https://github.com/OpenLMLab/MOSS#%E6%A8%A1%E5%9E%8B

Apr 29 '23 18:04 artpli