rlcard 关于训练的若干问题：

关于训练的若干问题：

Open mingoliu08 opened this issue 3 years ago • 2 comments

本人正基于RLcard作二次开发研究（更换斗地主少部分规则后训练）， 由于深度训练第一次接触研究， 知识储备不够，有几个疑问：

训练被中断后，添加--load_model参数接着训练，在总时长一样的情况下效果是否跟从0开始训练没有被中断的效果一样？
随着训练时长的不断增加，各项资源的占用不断减少，尤其是内存从最开始的接近100%，训练13天后内存占用只有30%，是否正常？
通过评估函数评估效果是发现虽然总体效果不断增加，但中间发现偶尔有一两天的训练效果反而比一两天前的效果差，扣除误差因素，以及更换seed评估，都是同样的结果，是否正常？
保存的文件名是否可以理解为训练的局数或者与局数成正比。在不同类型的显卡，或者不同数量的显卡，训练效率是否可以通过单位时间内保存的文件名之差来评估？
多块显卡训练时，单独用一张卡训练，其他用作actor时，用作训练的显卡利用率太低，能否用所有显卡产生actor，再用其中一块做训练？这样做是否训练效率更高？

Oct 10 '21 01:10 mingoliu08

@mingoliu08

Oct 10 '21 04:10 daochenzha

@daochenzha 非常感谢您的解答，第2点确实跟程序本身没关系

Oct 13 '21 05:10 mingoliu08