wenet
wenet copied to clipboard
ctc loss无法降低
我在使用 德语的开源数据(约2500h)去微调whisper-large-v3的预训练模型,期待得到一个德语流式识别模型,但是我在实验中发现ctc loss无法收敛,并最终保持在15以上,attention loss 在4~5左右。我是直接在whisper的基础上直接进行流式的微调,是否需要先进行非流式的训练,将ctc收敛后再进行流式训练?另外学习率以及ctc weight是否需要进行调整?能否给予解答,感谢!
可以这样