ChatGLM-6B
ChatGLM-6B copied to clipboard
现在全量训练为啥要设置fp16?这个精度不够,大模型容易导致不收敛,如何设置fp32或者bfp16?[Feature] <title>
Is your feature request related to a problem? Please describe.

Solutions
无
Additional context
No response
我记得是,不加fp16 默认用的fp32
请问下您全量微调用的GPU显存多大呀?我们用了3块24GB的GPU,但是第一块GPU报了OOM,其余的GPU没满,请问您有遇到这种问题吗?