davidjiangt
gene_action产生的是id,怎么可以reshape成[a_dim,]传入critic网络的不应该是action对应的权重吗
您好,为什么我在结合数据集训练过程中,reward是越来越高的,但是critic网络的loss却越来越大