a-deep-rl-approach-for-sdn-routing-optimization
a-deep-rl-approach-for-sdn-routing-optimization copied to clipboard
关于状态的疑问
您好,我最近也看了这篇论文。最大的疑惑是他的new_state为何是直接产生的,而不是通过每一step的action产生的? 这样不符合强化学习的逻辑,请问您有什么见解? 谢谢