FunASR 语音中4个字，经常识别丢失了最后一个字，麻烦看下

语音中4个字，经常识别丢失了最后一个字，麻烦看下

Open yk3372 opened this issue 1 year ago • 3 comments

我们在语音识别中，发现经常会丢失最后一个字，这里提供一个测试的demo，麻烦帮忙看下：

环境：Linux ubuntu

在终端运行命令： funasr ++model="paraformer-zh" ++input=aaaa.wav

拿到的结果是： [{'key': 'rand_key_2yW4Acq9GFz6Y', 'text': '我要打', 'timestamp': [[1830, 2050], [2050, 2270], [2270, 3175]]}]

实际上期待的文字是：我要打卡，丢失了最后的“卡”字

测试音频见附件，解压后即可使用

麻烦大佬帮忙看下~

Apr 30 '24 05:04 yk3372

Apr 30 '24 05:04 yk3372

可以尝试用这里的方法finetune一下 https://arxiv.org/abs/2211.00522 专门用来解决这种尾部缺失问题的

May 02 '24 09:05 xingchensong

可以尝试用这里的方法finetune一下 https://arxiv.org/abs/2211.00522 专门用来解决这种尾部缺失问题的

好的我试一下，多谢

May 06 '24 02:05 yk3372