nnom 关于识别几秒时长的语音

关于识别几秒时长的语音

Open xingjunhong opened this issue 1 year ago • 3 comments

假设：有一段几秒的语音，其中有关键词在语音内，其余的都是杂音。问题：如何找到关键词的开始位置和结束位置，并且将其识别？

Jul 31 '23 08:07 xingjunhong

喂数据的时候是一帧一帧的滑动窗口，你可以结合vad来做起始和结束时间戳

Aug 02 '23 06:08 majianjia

我看main_pc.c脚本，推理时，是每一秒都有一个推理结果，可以用这个结果来当做起始位置吗？

Aug 02 '23 07:08 xingjunhong

取决于你用什么类型的模型，如果是RNN那种，是每十几毫秒就有一帧

Aug 02 '23 09:08 majianjia