wenet icon indicating copy to clipboard operation
wenet copied to clipboard

RNNT解码垂域增强

Open mahuichao opened this issue 8 months ago • 1 comments

你好,我最近在学习咱们wenet内transducer的代码。我看transducer的推理策略prefix beam search中采用广度优先的策略进行剪枝等,相对于CTC中的Prefix Beam search后者我理解应该是深度优先,不符合分支再回退。CTC的解码策略中可以加入Contextual Biasing来做垂域增强,那么RNNTPrefix Beam Search中是否也可以呢?我个人理解如果做的话相当于只有当前Token被增强,缺少后续信息,效果不好预判。所以问问咱们社区是否做过类似的实验:RNNT流式推理策略中是否可以增加Contextual Baising。PS:这里不考虑增加CTC的概率来变相增强垂域的方式。

mahuichao avatar May 09 '25 08:05 mahuichao

最简单的思路是 每帧只推blank 或者非blank

这样是最好context bias 和ctc 几乎一样了 可以有回退弧 参考下k2那边实现的热词增强on rnnt

也有其他的复杂的 工程实现难度不小

Mddct avatar May 13 '25 04:05 Mddct