yifan-chen-2020 issues

Repositories
Issues
Comments

Results 1 issues of


                                            yifan-chen-2020

多卡微调打开evaluation报错

尝试了#163 里的解决方案，train()时候加入autocast，loss不会下降，一直在2.x。如果不加入则多卡不能跑evaluation，会报和这个issue一样的错？好奇作者的多卡测试是怎么跑通的，硬件环境a100，参数和这个issue提到的一致（除了数据集的地址） ``` # loss一直在2.x无法下降 with torch.autocast("cuda"): train_result = trainer.train() trainer.log_metrics("train", train_result.metrics) trainer.save_metrics("train", train_result.metrics) trainer.save_state() trainer.save_model() if trainer.is_world_process_zero() and model_args.plot_loss: plot_loss(training_args.output_dir, keys=["loss", "eval_loss"]) ```

pending