Paddle
Paddle copied to clipboard
使用paddle进行训练,很慢。初步推理为paddle与numpy转换效率低。
最近把一个torch模型改为paddle,参加一下比赛。发现训练速度要比torch慢了很多。 两个模型的差别不大,主要就是把一些用torch的运算改为paddle的了。
训练的时候,发现,程序能跑。但是,相比于torch慢了很多(两者的所有超参数都是保持一致的,数据集什么的都一致)。
于是我认为可能是数据加载的时候有拉胯了。
这是torch运行速度以及占用
这是paddle运行速度以及占用
我把模型训练以及验证的部分全部注释掉。发现确实慢。 当我使用paddle.set_device("cpu")时,发现没有任何提升。
于是我认为可能是paddle处理的就慢,
于是把数据处理中的paddle操作。
类似上图的,中间都用np进行处理了。
右侧用paddle框架的加载速度直接速度提升了3倍。运来只有100it/s多的迭代速度
但是再次进行训练时,速度仍然没有得到改善。 于是我认为,是模型里面存在大量的paddle计算操作,所以很慢。 后来发现了这个帖子https://gitee.com/paddlepaddle/Paddle/issues/I3S49J 跟我想的基本一致,paddle跟numpy之间的转换效率低。而torch这点做的挺不错。
希望你们能快点进行优化,这已经是2.3版本的了,你们说会解决,还没解决。
同样的数据集。网络torch一轮训练5小时,paddle得训练13个小时,即使用V100来训练,也会很大程度上的浪费资源。这可不是开玩笑的效率低。希望你们可以重视并优化。
您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档、常见问题、历史Issue、AI社区来寻求解答。祝您生活愉快~
Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the API,FAQ,Github Issue and AI community to get the answer.Have a nice day!
你好 已收到反馈
你好 这个会在2.4解决。2.4的动态图调度性能会大福提升
好吧, 辛苦你们了,那2.4版本大概什么时候上线呢,想体验一波
感谢指出,我们希望重点跟进一下这个问题,希望你提供一些关键信息:
- 方便提供一下你写的paddle代码和参考的torch代码吗?可以给一个repo链接哈~
- 我们希望确认你写的paddle模型在精度上是否和参考模型已经对齐,如最终的精度、中间过程的精度是否对齐?
- 数据加载过程中,可以试一下调大dataloader的num_workers,看看会不会有改善
cc @heavengate
Since you haven't replied for more than a year, we have closed this issue/pr. If the problem is not solved or there is a follow-up one, please reopen it at any time and we will continue to follow up. 由于您超过一年未回复,我们将关闭这个issue/pr。 若问题未解决或有后续问题,请随时重新打开,我们会继续跟进。