davidjiangt issues

Results 2 issues of


                                            davidjiangt

gene_action产生的是id，怎么可以reshape成[a_dim,]传入critic网络的不应该是action对应的权重吗

您好，为什么我在结合数据集训练过程中，reward是越来越高的，但是critic网络的loss却越来越大