CFPNet icon indicating copy to clipboard operation
CFPNet copied to clipboard

显存会随轮数无限变大吗

Open DirtyBit64 opened this issue 1 year ago • 5 comments

我训到70轮显存溢出了,总共还需要训400轮,,,,

DirtyBit64 avatar May 07 '23 08:05 DirtyBit64

@PGthree3 不会,猜测是你代码的问题

dongzhang89 avatar May 08 '23 02:05 dongzhang89

我降低了两个bs,并且将block的中间扩张率下调成了2,有一定涨点效果,请问作者有试过调整EVCblock的中间扩张率吗,源码是4和2差距大吗

DirtyBit64 avatar May 09 '23 07:05 DirtyBit64

@PGthree3 扩张率是一个超参数,应该在不同数据集上性能有所差距。我们当时没有做这么多的调参,EVCblock只是提供了一种除了attention之外的其他可能性。要是你有更多细节的实验结果,欢迎report或者提交pull request,谢谢。

dongzhang89 avatar May 10 '23 01:05 dongzhang89

好的,感谢回复!

DirtyBit64 avatar May 10 '23 03:05 DirtyBit64

我降低了两个bs,并且将block的中间扩张率下调成了2,有一定涨点效果,请问作者有试过调整EVCblock的中间扩张率吗,源码是4和2差距大吗

请问你是直接用的CFP模块还是只用了EVC模块啊

SmoothJing avatar Aug 21 '23 15:08 SmoothJing