FireRedASR 模型输出出现重复的情况

使用AED模型，长音频按照每1分钟切分进行识别，会概率出现重复的情况，例如： “但是你是我一看以后，它应该是需要呃一个时间段也是这样考虑。但是考核。对他这个整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的。” 包括大量的“嗯嗯嗯嗯”，“啊啊啊啊啊”，“哈哈哈哈哈哈哈”重复的情况。

模型推理参数: "use_gpu": 1, "beam_size": 1, "nbest": 1, "decode_max_len": 0, "softmax_smoothing": 1.25, "aed_length_penalty": 0.6, "eos_penalty": 1.0

Aug 20 '25 05:08 cskkx1

遇到同樣問題 AED 模型

{
      "use_gpu": 1,
      "beam_size": 3,
      "nbest": 1,
      "decode_max_len": 0,
      "softmax_smoothing": 1.0,
      "aed_length_penalty": 0.0,
      "eos_penalty": 1.0
}

音訊檔 (wav) 模型輸出

顯卡是 5070ti

Aug 20 '25 07:08 Paxton0222

切成40s，大概率不会

Aug 20 '25 08:08 xinwang0304

可以先用VAD对音频进行切分，试试。

Oct 29 '25 04:10 kaituoxu