yifan-chen-2020

Results 1 issues of yifan-chen-2020

尝试了#163 里的解决方案,train()时候加入autocast,loss不会下降,一直在2.x。 如果不加入则多卡不能跑evaluation,会报和这个issue一样的错? 好奇作者的多卡测试是怎么跑通的,硬件环境a100,参数和这个issue提到的一致(除了数据集的地址) ``` # loss一直在2.x无法下降 with torch.autocast("cuda"): train_result = trainer.train() trainer.log_metrics("train", train_result.metrics) trainer.save_metrics("train", train_result.metrics) trainer.save_state() trainer.save_model() if trainer.is_world_process_zero() and model_args.plot_loss: plot_loss(training_args.output_dir, keys=["loss", "eval_loss"]) ```

pending