FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

语音中4个字,经常识别丢失了最后一个字,麻烦看下

Open yk3372 opened this issue 1 year ago • 3 comments

❓ Questions and Help

我们在语音识别 中,发现经常会丢失最后一个字,这里提供一个测试的demo,麻烦帮忙看下:

环境:Linux ubuntu

在终端运行命令: funasr ++model="paraformer-zh" ++input=aaaa.wav

拿到的结果是: [{'key': 'rand_key_2yW4Acq9GFz6Y', 'text': '我 要 打', 'timestamp': [[1830, 2050], [2050, 2270], [2270, 3175]]}]

实际上期待的文字是: 我要打卡,丢失了最后的“卡”字

测试音频见附件,解压后即可使用

麻烦大佬帮忙看下~

yk3372 avatar Apr 30 '24 05:04 yk3372

aaaa.wav.zip

yk3372 avatar Apr 30 '24 05:04 yk3372

可以尝试用这里的方法finetune一下 https://arxiv.org/abs/2211.00522 专门用来解决这种尾部缺失问题的

xingchensong avatar May 02 '24 09:05 xingchensong

可以尝试用这里的方法finetune一下 https://arxiv.org/abs/2211.00522 专门用来解决这种尾部缺失问题的

好的我试一下,多谢

yk3372 avatar May 06 '24 02:05 yk3372