rlcard icon indicating copy to clipboard operation
rlcard copied to clipboard

关于训练的若干问题:

Open mingoliu08 opened this issue 3 years ago • 2 comments

本人正基于RLcard作二次开发研究(更换斗地主少部分规则后训练), 由于深度训练第一次接触研究, 知识储备不够,有几个疑问:
  1. 训练被中断后, 添加--load_model参数接着训练, 在总时长一样的情况下效果是否跟从0开始训练没有被中断的效果一样?
  2. 随着训练时长的不断增加,各项资源的占用不断减少, 尤其是内存从最开始的接近100%,训练13天后内存占用只有30%, 是否正常?
  3. 通过评估函数评估效果是发现虽然总体效果不断增加, 但中间发现偶尔有一两天的训练效果反而比一两天前的效果差, 扣除误差因素,以及更换seed评估,都是同样的结果,是否正常?
  4. 保存的文件名是否可以理解为训练的局数或者与局数成正比。 在不同类型的显卡,或者不同数量的显卡,训练效率是否可以通过单位时间内保存的文件名之差来评估?
  5. 多块显卡训练时, 单独用一张卡训练,其他用作actor时,用作训练的显卡利用率太低, 能否用所有显卡产生actor,再用其中一块做训练?这样做是否训练效率更高?

mingoliu08 avatar Oct 10 '21 01:10 mingoliu08

@mingoliu08

  1. 理论上没有区别。
  2. 这个有点奇怪,理论上应该一样。是不是其他程序占用的?
  3. 这个正常,训练中会有波动。
  4. 是的。
  5. 训练的瓶颈在actor,训练的进程会等待。所有显卡产生actor,再用其中一块做训练可能更快。

daochenzha avatar Oct 10 '21 04:10 daochenzha

@daochenzha 非常感谢您的解答, 第2点确实跟程序本身没关系

mingoliu08 avatar Oct 13 '21 05:10 mingoliu08