Restore-RWKV
Restore-RWKV copied to clipboard
关于优化器的问题
作者,你好! 我自己在使用RWKV模块的时候,使用torch.optim.lr_scheduler.StepLR(optimizer, step_size=args.n_steps, gamma=args.gamma),在学习率更新后提升很小。我看您论文中是使用CosineAnnealingLR(optimizer_G, total_iteration, eta_min=1.0e-6),我想问一下total_iteration和总样本数有关吗?在你的任务中总样本数是多少呢? 谢谢!!!