wenet
wenet copied to clipboard
[transformer] add qk norm
多模态和部分大模型中采用qk norm 来稳定训练 (apple dmel中也用到了)(有益于bestrq 训练 和稳定梯度)
TODO:
- [ ] conformer result