FireRedASR
FireRedASR copied to clipboard
模型输出出现重复的情况
使用AED模型,长音频按照每1分钟切分进行识别,会概率出现重复的情况, 例如: “但是你是我一看以后,它应该是需要呃一个时间段也是这样考虑。但是考核。对他这个整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的整体的。” 包括大量的“嗯嗯嗯嗯”,“啊啊啊啊啊”,“哈哈哈哈哈哈哈”重复的情况。
模型推理参数: "use_gpu": 1, "beam_size": 1, "nbest": 1, "decode_max_len": 0, "softmax_smoothing": 1.25, "aed_length_penalty": 0.6, "eos_penalty": 1.0
遇到同樣問題 AED 模型
{
"use_gpu": 1,
"beam_size": 3,
"nbest": 1,
"decode_max_len": 0,
"softmax_smoothing": 1.0,
"aed_length_penalty": 0.0,
"eos_penalty": 1.0
}
顯卡是 5070ti
切成40s,大概率不会
可以先用VAD对音频进行切分,试试。