FireRedTeam
FireRedTeam
Thanks for your pull request! We'll review the code.
目前不支持自动加标点。需要用额外的模型去做。
先用VAD切分一下呢?
识别的文本结果正确吗?
这句话多长呢?采样率采样位数对着吗?
输入语音多长,输出文本多长
"训练的时候是不是需要按照readme所说做一个时长的数据预处理,将时长相近的wav组成一个个batch来提feats" 是的。
“如果不管时长直接整体提特征,而后训练,可能问题也不大?” 这样训练中可能一个batch内的padding较多,会降低训练效率。
Audio too long. https://github.com/FireRedTeam/FireRedASR?tab=readme-ov-file#input-length-limitations