FunASR
FunASR copied to clipboard
片段中存在长时间的静音,识别结果的时间戳不准确
平台:windows python:3.9 modelscope: 1.9.2 funasr: 0.8.0 test.zip
我一段音频1-20s是连续说话的声音,20s-25s是静音, 25s-45s又是连续说话的声音,用长音频的模型,识别出的结果时间戳有问题,比如:00:00:17,930 --> 00:00:26,100 , 20-25s是静音的 是识别问题,还是有其它参数调节可以避免这样的问题么? 附件是音频文件
已经定位到问题,根据标点切句的结果在标点不准确的时候会导致子句包含中间静音。修复中。
非常感谢! 修复完成提交代码后,麻烦说一下哈,我测试验证一下,我还有其它好几个音频也有这样的问题
已经定位到问题,根据标点切句的结果在标点不准确的时候会导致子句包含中间静音。修复中。
麻烦问一下,修复完成了吗?
问一下时间戳使用文档在哪,找半天没找到