FunASR 转写长音频（20分钟以上）的时候，会出现大量的叠字

在转写长音频（20分钟以上）的时候，会出现大量的叠字，回放音频，发现一般出现在：

一句话出现短暂的停顿，会把上一个字重复输出一次，比如：提醒出发，醒停顿了一下，就会识别为提醒醒出发；
把上一个词的前一个字，错误的识别为上一个词的后一个字，比如：微博留言，会识别为：微博博言；以下是我的模型配置：叠字截图：测试音频（转写后，用正则表达式：(.)\1 可以查看叠字现象）：

其他测试过的模型： speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 也存在这个问题。总结以下规律：‘

Oct 16 '24 11:10 sipeter

这个怎么样了呢

Jan 06 '25 14:01 kratorado

没有解决呢，我发现了规律，录制的字正腔圆的电子书就不会有这个问题，而随意的播客节目，会大量出现叠字。

Jan 06 '25 14:01 sipeter

不用到20分钟，1分钟（vad强切默认值是60s）就能出现吧。我看是ASR模型的问题吧，ASR推理vad切不断的语音这种现象比较明显。至于调到多少可能跟训练数据的长度有关系吧，我觉得尝试调到20s看看有没有改善。

Feb 13 '25 02:02 lhanzl

有结论了吗？怎么处理，我也遇到了

Sep 05 '25 09:09 xwjiang3

不用到20分钟，1分钟（vad强切默认值是60s）就能出现吧。我看是ASR模型的问题吧，ASR推理vad切不断的语音这种现象比较明显。至于调到多少可能跟训练数据的长度有关系吧，我觉得尝试调到20s看看有没有改善。

@lhanzl @xwjiang3 我做了测试，修改max_single_segment_time参数会影响叠字出现的频率，测试下来，我这个测试的音频材料，max_single_segment_time设置为10s（10000）的时候，叠字最少，但这个可能也跟音频本身有关系，没有代表性。

Sep 08 '25 00:09 sipeter