nnom
nnom copied to clipboard
关于识别几秒时长的语音
假设:有一段几秒的语音,其中有关键词在语音内,其余的都是杂音。 问题:如何找到关键词的开始位置和结束位置,并且将其识别?
喂数据的时候是一帧一帧的滑动窗口,你可以结合vad来做起始和结束时间戳
我看main_pc.c脚本,推理时,是每一秒都有一个推理结果,可以用这个结果来当做起始位置吗?
取决于你用什么类型的模型,如果是RNN那种,是每十几毫秒就有一帧