FunASR
FunASR copied to clipboard
语音中4个字,经常识别丢失了最后一个字,麻烦看下
❓ Questions and Help
我们在语音识别 中,发现经常会丢失最后一个字,这里提供一个测试的demo,麻烦帮忙看下:
环境:Linux ubuntu
在终端运行命令:
funasr ++model="paraformer-zh" ++input=aaaa.wav
拿到的结果是: [{'key': 'rand_key_2yW4Acq9GFz6Y', 'text': '我 要 打', 'timestamp': [[1830, 2050], [2050, 2270], [2270, 3175]]}]
实际上期待的文字是: 我要打卡,丢失了最后的“卡”字
测试音频见附件,解压后即可使用
麻烦大佬帮忙看下~
可以尝试用这里的方法finetune一下 https://arxiv.org/abs/2211.00522 专门用来解决这种尾部缺失问题的
可以尝试用这里的方法finetune一下 https://arxiv.org/abs/2211.00522 专门用来解决这种尾部缺失问题的
好的我试一下,多谢