shangliang Xu
shangliang Xu
可能是paddle框架与不同平台兼容性有问题,可以参考 #6723
https://github.com/PaddlePaddle/PaddleDetection/issues/6723#issuecomment-1326083748 你先试下这里的单测用例,看看是否在你的环境下也会出现类似的bug
> 是的,单卡训练 你PaddleDetection版本是多少?
你看一下你那边的代码有没有这一行:https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.5/ppdet/modeling/heads/ppyoloe_head.py#L350
你拉取最新的代码再跑一下,print一下`assigned_scores_sum`debug看看
Windows下paddle框架确实有问题,已反馈给Paddle主框架,为了不影响使用可以参考https://github.com/PaddlePaddle/PaddleDetection/issues/6723
或者你可以提供给我你的环境嘛?我这边本地实在无法复现这个问题
好的,我找台Windows的机器复现一下,感觉是某个算子在Windows平台下GPU kernel有问题导致的出nan
首先,我这边在Windows上复现了这个问题,是paddle框架的bug,paddle.masked_select这个算子在gpu下的运算是错误的。附上截图: ppyoloe模型在计算loss的时候使用到了这个算子,导致了后续结果出nan。 其次,这个问题我是在Python3.7的环境下才能复现,在Python3.9的环境下是正常的,附上截图: 最后,这个问题我已经反馈给了Paddle框架的同学,后续会进行排期修复。为了不影响你使用,建议你试一下在Python3.9环境下安装paddle-develop版本跑ppyoloe模型的训练,给你带来的不便,我们深感抱歉~