GLM-4
GLM-4 copied to clipboard
GLM4的微调代码似乎evaluation时未做优化
System Info / 系統信息
最新版LoRA微调,除了batch其他参数默认,evaluation的batch_size设置1,训练batch_size也是1,训练哪怕是2以上都正常,但是evaluation时就会内存分页大小问题。是否需要train->GC->eval->train->...? 2080Ti 22G,实在是没有足够的显存可以train的基础上再加入evaluation
报错(故意调成10来eval,复现报错):
{'loss': 2.4602, 'grad_norm': 6.9103498458862305, 'learning_rate': 0.0004991666666666666, 'epoch': 0.0}
0%|▎ | 10/6000 [01:03<2:28:24, 1.49s/it]
***** Running Evaluation *****
Num examples = 600
Batch size = 1
Traceback (most recent call last):
File "
Who can help? / 谁可以帮助到您?
No response
Information / 问题信息
- [ ] The official example scripts / 官方的示例脚本
- [ ] My own modified scripts / 我自己修改的脚本和任务
Reproduction / 复现过程
python .\finetune.py data//nov_glm_datasets THUDM/glm-4-9b-chat configs/lora.yaml
Expected behavior / 期待表现
期待正常微调,eval时不额外加载模型推理