ASRT_SpeechRecognition
ASRT_SpeechRecognition copied to clipboard
关于m251模型训练次数
现在跑到4.1w数据,但其实从2.9w开始,loss就一直在26上下极小范围浮动,而valid的WER 则一直在30----50之间跳动,请问一般训练多少step的时候就差不多可以了?对应的,loss一般多少才算正常,然后什么时候判断为收敛结束训练呢?
同样问题?你的解决了吗?
我这边训练到loss 在25左右。 但是我没跑到2.9w数据,因为会报错 内存溢出----可能tf版本原因。 运行8小时左右。 https://zhuanlan.zhihu.com/p/277569990
然后我每次运行都是加载上一次的模型,继续训练。但是昨天到现在 loss 在25
所以,应该就是此项目的251模型的最好结果? @nl8590687 大佬,
我想着给模型加上self-attention 试试看看。@liangxt2012 @a122760
并不是,内存溢出可能是因为使用的tf版本不稳定,存在bug,我们其他人目前都没有这个问题 @laoyin