FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

片段中存在长时间的静音,识别结果的时间戳不准确

Open lawindman666 opened this issue 2 years ago • 4 comments

平台:windows python:3.9 modelscope: 1.9.2 funasr: 0.8.0 test.zip

我一段音频1-20s是连续说话的声音,20s-25s是静音, 25s-45s又是连续说话的声音,用长音频的模型,识别出的结果时间戳有问题,比如:00:00:17,930 --> 00:00:26,100 , 20-25s是静音的 是识别问题,还是有其它参数调节可以避免这样的问题么? 附件是音频文件

lawindman666 avatar Oct 19 '23 02:10 lawindman666

已经定位到问题,根据标点切句的结果在标点不准确的时候会导致子句包含中间静音。修复中。

R1ckShi avatar Oct 19 '23 07:10 R1ckShi

非常感谢! 修复完成提交代码后,麻烦说一下哈,我测试验证一下,我还有其它好几个音频也有这样的问题

lawindman666 avatar Oct 20 '23 03:10 lawindman666

已经定位到问题,根据标点切句的结果在标点不准确的时候会导致子句包含中间静音。修复中。

麻烦问一下,修复完成了吗?

lawindman666 avatar Oct 30 '23 01:10 lawindman666

问一下时间戳使用文档在哪,找半天没找到

song0320 avatar Oct 30 '23 14:10 song0320