FunASR 片段中存在长时间的静音，识别结果的时间戳不准确

片段中存在长时间的静音，识别结果的时间戳不准确

Open lawindman666 opened this issue 2 years ago • 4 comments

平台:windows python:3.9 modelscope: 1.9.2 funasr: 0.8.0 test.zip

我一段音频1-20s是连续说话的声音，20s-25s是静音， 25s-45s又是连续说话的声音，用长音频的模型，识别出的结果时间戳有问题，比如：00:00:17,930 --> 00:00:26,100 ， 20-25s是静音的是识别问题，还是有其它参数调节可以避免这样的问题么？附件是音频文件

Oct 19 '23 02:10 lawindman666

已经定位到问题，根据标点切句的结果在标点不准确的时候会导致子句包含中间静音。修复中。

Oct 19 '23 07:10 R1ckShi

非常感谢! 修复完成提交代码后，麻烦说一下哈，我测试验证一下，我还有其它好几个音频也有这样的问题

Oct 20 '23 03:10 lawindman666

已经定位到问题，根据标点切句的结果在标点不准确的时候会导致子句包含中间静音。修复中。

麻烦问一下，修复完成了吗？

Oct 30 '23 01:10 lawindman666

问一下时间戳使用文档在哪，找半天没找到

Oct 30 '23 14:10 song0320