UAV_Navigation_DRL_AirSim
UAV_Navigation_DRL_AirSim copied to clipboard
Domain randomization
我想请问下,您在训练时,是否使用了Domain randomization的方法,来使得训练获得的策略具有更好的泛化性呢?比如每回合训练开始时,UAV随机初始化在不同的位置?
目前大部分训练都是起飞点固定,随机目标位置,也有部分地图是随机初始位置,这个都可以自己设置的
还想请问下,对于目标点随机初始化的情况,是否不合适采用累计奖励作为衡量算法性能的指标呢?当随机目标点离无人机初始位置较远时,初期朝向目标点飞行累积较高奖励,最终即使产生碰撞累积奖励和也会较大,这种情况下用累计奖励衡量算法性能的话是不是可能会有偏颇?
在训练过程中确实考虑了这种情况,我自己的设置中,随机的目标点都会在一个固定的半径,所以路径随机但是直线距离相同。对于不能以固定半径生成随机目标点的地图(如AirSimNH),会使用距离系数对不同的目标点距离进行归一化,保持接近目标获得的累计奖励相同
非常感谢大佬的解答。我在大佬的论文中看到,控制器的频率也做了限制,大小为10Hz,请问这个频率是什么意思啊?是要在UE4中去专门设置这个值吗?还是在控制代码里去设置啊?不同的频率设定会对算法训练的成功率产生较大的影响吗?辛苦大佬再解答一下
您好,我想问一下大佬的论文在哪里可以看呢