FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

转写长音频(20分钟以上)的时候,会出现大量的叠字

Open sipeter opened this issue 1 year ago • 5 comments
trafficstars

在转写长音频(20分钟以上)的时候,会出现大量的叠字,回放音频,发现一般出现在:

  1. 一句话出现短暂的停顿,会把上一个字重复输出一次,比如:提醒出发,醒停顿了一下,就会识别为提醒醒出发;
  2. 把上一个词的前一个字,错误的识别为上一个词的后一个字,比如:微博留言,会识别为:微博博言; 以下是我的模型配置: image 叠字截图: image 测试音频(转写后,用正则表达式:(.)\1 可以查看叠字现象):

MA005_测试.zip

其他测试过的模型: speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 也存在这个问题。 总结以下规律:‘

  1. 同一段音频,用faster whisper 不会出现这么高频率的叠字现象;
  2. 将音频截取出小段,可以消除叠字现象;
  3. 不是所有音频都遇到这个问题。

Environment

  • OS (e.g., Linux): windows 10
  • FunASR Version (e.g., 1.0.0): 1.1.12
  • ModelScope Version (e.g., 1.11.0): 1.15
  • PyTorch Version (e.g., 2.0.0): 2.1.2
  • How you installed funasr (pip, source):
  • Python version: 3.9
  • GPU (e.g., V100M32) 4070
  • CUDA/cuDNN version (e.g., cuda11.7): CU118
  • Docker version (e.g., funasr-runtime-sdk-cpu-0.4.1)
  • Any other relevant information:

sipeter avatar Oct 16 '24 11:10 sipeter

这个怎么样了呢

kratorado avatar Jan 06 '25 14:01 kratorado

没有解决呢,我发现了规律,录制的字正腔圆的电子书就不会有这个问题,而随意的播客节目,会大量出现叠字。

sipeter avatar Jan 06 '25 14:01 sipeter

不用到20分钟,1分钟(vad强切默认值是60s)就能出现吧。我看是ASR模型的问题吧,ASR推理vad切不断的语音这种现象比较明显。至于调到多少可能跟训练数据的长度有关系吧,我觉得尝试调到20s看看有没有改善。

lhanzl avatar Feb 13 '25 02:02 lhanzl

有结论了吗?怎么处理,我也遇到了

xwjiang3 avatar Sep 05 '25 09:09 xwjiang3

不用到20分钟,1分钟(vad强切默认值是60s)就能出现吧。我看是ASR模型的问题吧,ASR推理vad切不断的语音这种现象比较明显。至于调到多少可能跟训练数据的长度有关系吧,我觉得尝试调到20s看看有没有改善。

@lhanzl @xwjiang3 我做了测试,修改max_single_segment_time参数会影响叠字出现的频率,测试下来,我这个测试的音频材料,max_single_segment_time设置为10s(10000)的时候,叠字最少,但这个可能也跟音频本身有关系,没有代表性。

sipeter avatar Sep 08 '25 00:09 sipeter