DouZero icon indicating copy to clipboard operation
DouZero copied to clipboard

[ICML 2021] DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning | 斗地主AI

Results 32 DouZero issues
Sort by recently updated
recently updated
newest added

机器4张卡,单卡显存12G,上限只能跑如下参数,再大报显存错误了。 python -u train.py --gpu_devices 0,1,2,3 --num_actor_devices 3 --num_actors 2 --training_device 3

[INFO:1052 dmc:233 2022-07-20 17:39:38,765] After 1632000 (L:556800 U:528000 D:547200) frames: @ 1918.7 fps (avg@ 2318.1 fps) (L:0.0 U:0.0 D:1918.7) Stats: {'loss_landlord': 1.9155352115631104, 'loss_landlord_down': 2.5349276065826416, 'loss_landlord_up': 2.1095376014709473, 'mean_episode_return_landlord': 0.08421196788549423, 'mean_episode_return_landlord_down': -0.08074238896369934,...

以下一局我扮演地主,本来农民可以稳赢的,结果它出了个7777XD, 被我反杀。即使规则允许,这样做也是不应该的,建议强制让AI四带二不能带XD new game start you are landlord your cards: 3344448889999JJJJQ22 888q landlord: 888Q left:16 winRate: landlord_down: 5555 left:13 winRate:100.0% landlord_up: left:17 winRate:100.0% your cards: 3344449999JJJJ22 9999 landlord: 9999 left:12...

是进行更新了吗?抱歉我没有找到启动文件,是game.py吗?

我看目前eval_data.pickle中有三个玩家的初始手牌,请问目前evaluation是不是必须提供其他两个玩家的手牌信息,可否只根据自己的手牌和其他玩家的出牌做推理? 谢谢!

我训练的是wp,代码是你们的源码,训练后相比训练前的ckpt很奇怪 第一个表现,不管是地主还是农民,在出牌预测时,胜率都变为不高于50% 第二个表现,总是出大牌,压制对方,即使自己是农民,也会压制队友,导致最后无牌可出 第三个表现,有炸会拆着走,比如自己手牌剩下最大的2炸和一个对三,会直接走四带二 这是我训练了一小时之后尝试的效果,loss是0.9 所以请问你们训练多久?loss到多少算成功?是需要什么trick吗?

请问如何使用人类数据训练SL模型?数据应是什么格式的?在哪里进行操作呢?

THCudaCheck FAIL file=..\torch/csrc/generic/StorageSharing.cpp line=249 error=801 : operation not supported Traceback (most recent call last): File "E:\深度学习相关\DouZero相关群资料\模型训练\分布式训练\分布式训练\train.py", line 8, in train(flags) File "E:\深度学习相关\DouZero相关群资料\模型训练\分布式训练\分布式训练\douzero\dmc\dmc.py", line 202, in train actor.start() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python39\lib\multiprocessing\process.py", line...

https://github.com/yffbit/douzero_cpp