simon

Results 2 issues of simon

Traceback (most recent call last): File "D:\GSV\GPT-SoVITS\tools\asr\fasterwhisper_asr.py", line 74, in execute_asr for segment in segments: File "D:\DEV\anaconda3\envs\GPTSoVits\lib\site-packages\faster_whisper\transcribe.py", line 941, in restore_speech_timestamps for segment in segments: File "D:\DEV\anaconda3\envs\GPTSoVits\lib\site-packages\faster_whisper\transcribe.py", line 445, in...

在转写长音频(20分钟以上)的时候,会出现大量的叠字,回放音频,发现一般出现在: 1. 一句话出现短暂的停顿,会把上一个字重复输出一次,比如:提醒出发,醒停顿了一下,就会识别为提醒醒出发; 2. 把上一个词的前一个字,错误的识别为上一个词的后一个字,比如:微博留言,会识别为:微博博言; 以下是我的模型配置: ![image](https://github.com/user-attachments/assets/9ea5790a-7195-4090-82a5-383d18953477) 叠字截图: ![image](https://github.com/user-attachments/assets/cf88f271-5c04-4279-a40b-4a9d480ce700) 测试音频(转写后,用正则表达式:(.)\1 可以查看叠字现象): [MA005_测试.zip](https://github.com/user-attachments/files/17394657/MA005_.zip) 其他测试过的模型: speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 也存在这个问题。 总结以下规律:‘ 1. 同一段音频,用faster whisper 不会出现这么高频率的叠字现象; 2. 将音频截取出小段,可以消除叠字现象; 3. 不是所有音频都遇到这个问题。 ### Environment - OS (e.g., Linux):...

bug