FireRedASR icon indicating copy to clipboard operation
FireRedASR copied to clipboard

模型输出出现重复的情况

Open cskkx1 opened this issue 4 months ago • 3 comments

使用AED模型,长音频按照每1分钟切分进行识别,会概率出现重复的情况, 例如: “但是你是我一看以后,它应该是需要呃一个时间段也是这样考虑。但是考核。对他这个整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的。” 包括大量的“嗯嗯嗯嗯”,“啊啊啊啊啊”,“哈哈哈哈哈哈哈”重复的情况。

模型推理参数: "use_gpu": 1, "beam_size": 1, "nbest": 1, "decode_max_len": 0, "softmax_smoothing": 1.25, "aed_length_penalty": 0.6, "eos_penalty": 1.0

cskkx1 avatar Aug 20 '25 05:08 cskkx1

遇到同樣問題 AED 模型

{
      "use_gpu": 1,
      "beam_size": 3,
      "nbest": 1,
      "decode_max_len": 0,
      "softmax_smoothing": 1.0,
      "aed_length_penalty": 0.0,
      "eos_penalty": 1.0
}

音訊檔 (wav) 模型輸出

顯卡是 5070ti

Paxton0222 avatar Aug 20 '25 07:08 Paxton0222

切成40s,大概率不会

xinwang0304 avatar Aug 20 '25 08:08 xinwang0304

可以先用VAD对音频进行切分,试试。

kaituoxu avatar Oct 29 '25 04:10 kaituoxu