MoCoPnet 训练到大概 9000 次迭代的时候 loss 变得巨大

训练到大概 9000 次迭代的时候 loss 变得巨大

Open Monalissaa opened this issue 2 years ago • 2 comments

再次感谢您的工作！我按照您的默认设置（SAIDT数据集是按照论文里的训练测试方式进行划分的）进行了训练，如下所示

parser.add_argument("--save", default='./log', type=str, help="Save path")
parser.add_argument("--resume", default="", type=str, help="Resume path (default: none)")
parser.add_argument("--scale_factor", type=int, default=4, help="scale")
parser.add_argument("--input_num", type=int, default=7, help="input frame number")
parser.add_argument("--train_dataset_dir", default='./data/train/SAITD', type=str, help="train_dataset")
parser.add_argument("--val_dataset_dir", default='./data/test/SAITD', type=str, help="train_dataset")
parser.add_argument("--batch_size", type=int, default=2, help="Training batch size")
parser.add_argument('--patch_size', type=int, default=64)
parser.add_argument('--n_iters', type=int, default=100000, help='number of iterations to train')
parser.add_argument("--device", default=0, type=int, help="GPU id (default: 0)")
parser.add_argument("--lr", type=float, default=1e-3, help="Learning Rate. Default=4e-4")
parser.add_argument('--gamma', type=float, default=0.5, help='gamma')
parser.add_argument("--milestones", type=int, default=[10000,20000,60000], help="Sets the learning rate to the initial LR decayed by momentum every n epochs, Default: n=6")
parser.add_argument("--threads", type=int, default=4, help="Number of threads for data loader to use, Default: 1")

可是，训练到大概 9000 次迭代的时候 loss 变得巨大 8999it [32:18, 8.27it/s]Mar 29 23:46:06 iter---9000, loss_epoch---17572159662772990246912.000000, PSNR---5.812408

请问，您知道这是怎么回事嘛

Mar 30 '22 02:03 Monalissaa

请问你们具体使用环境的每个包的版本是什么呀😭

Apr 08 '22 02:04 Monalissaa

训练崩了吧，重新从没崩的那个epoch继续训，可以把学习率调小一点

Jun 13 '22 03:06 XinyiYing

MoCoPnet MoCoPnet copied to clipboard

训练到大概 9000 次迭代的时候 loss 变得巨大

MoCoPnet
MoCoPnet copied to clipboard