DouZero icon indicating copy to clipboard operation
DouZero copied to clipboard

我自己train了一下,为什么出来的结果不像你们训练出的那样智能?

Open profection opened this issue 2 years ago • 15 comments

我训练的是wp,代码是你们的源码,训练后相比训练前的ckpt很奇怪 第一个表现,不管是地主还是农民,在出牌预测时,胜率都变为不高于50% 第二个表现,总是出大牌,压制对方,即使自己是农民,也会压制队友,导致最后无牌可出 第三个表现,有炸会拆着走,比如自己手牌剩下最大的2炸和一个对三,会直接走四带二 这是我训练了一小时之后尝试的效果,loss是0.9 所以请问你们训练多久?loss到多少算成功?是需要什么trick吗?

profection avatar Apr 03 '22 16:04 profection

@profection 我们按每秒6000 frame的速度训练了大约两个月

daochenzha avatar Apr 03 '22 21:04 daochenzha

@profection 我们按每秒6000 frame的速度训练了大约两个月

哦,那时间有点长的啊,两月后最好的loss到什么程度了? 代码我稍微修改了一些,原有的代码逻辑是没有main.tar时自己生成ckpt,但我直接改成加载你们的ckpt,但使用你们提供的ckpt后,为什么评估loss是0.9,而且train了几分钟后得到的ckpt出牌预测时胜率变为不高于50%?很奇怪啊

profection avatar Apr 04 '22 00:04 profection

补充一下,还有一个很奇怪的现象,如果出牌中有QQQ9997766635,对家出了8884,这边会直接出999Q,导致对家出TTT4后自己无牌可出,这是什么bug?能修复吗?

profection avatar Apr 04 '22 01:04 profection

QQQ9997766635 这是生成的可出牌序列 [[3, 12, 12, 12], [5, 12, 12, 12], [6, 12, 12, 12], [7, 12, 12, 12], [9, 12, 12, 12], [3, 9, 9, 9], [5, 9, 9, 9], [6, 9, 9, 9], [7, 9, 9, 9], [9, 9, 9, 12]]

profection avatar Apr 04 '22 01:04 profection

@profection loss并不是越低越好 得看胜率。这种情况就是没学好,神经网络不能保证百分之百对

daochenzha avatar Apr 04 '22 06:04 daochenzha

@profection loss并不是越低越好 得看胜率。这种情况就是没学好,神经网络不能保证百分之百对

哦,那你们怎么判断什么时候算已经训练完了?或者什么时候该结束训练?

profection avatar Apr 04 '22 08:04 profection

@profection 这个只能靠和baseline的胜率判断

daochenzha avatar Apr 04 '22 14:04 daochenzha

@profection 这个只能靠和baseline的胜率判断

和我想一块去了,刚改了代码,三个角色有两个角色用baseline当老师,另一个当学生,我跑跑试试

profection avatar Apr 04 '22 15:04 profection

另外有个关于神经网络结构的问题 为什么不用resnet,不用prelu,为什么lstm只用一层,为什么没有用dropout?只用6层linear是不是少了点?现在gpt都24层了

profection avatar Apr 04 '22 15:04 profection

@profection 复杂的网络比如resnet效果会更好。只是我们没有怎么调网络结构。

daochenzha avatar Apr 04 '22 15:04 daochenzha

哦,我还以为你们都试过,现在的网络结构是排除出来的,因为我试了一下改网络结构,训练出来效果不是很好

profection avatar Apr 05 '22 01:04 profection

我又回来了= =,大神还有个问题,我训练这么久,loss一直在0.6徘徊(训练的是wp),为什么啊?这个loss不收敛吗? PS:不管是现有的模型还是已经改过的模型,训练都不收敛

profection avatar Apr 07 '22 00:04 profection

@profection 强化学习是这样的,loss不会掉,得根据得分判断学习进程

daochenzha avatar Apr 09 '22 03:04 daochenzha

@profection 强化学习是这样的,loss不会掉,得根据得分判断学习进程

明白了,谢谢,我再多训练几天看看

profection avatar Apr 16 '22 05:04 profection

请问是如何改的用baseline当老师啊,能否告知一下

cxk555 avatar Dec 14 '23 06:12 cxk555