nnom icon indicating copy to clipboard operation
nnom copied to clipboard

关于识别几秒时长的语音

Open xingjunhong opened this issue 1 year ago • 3 comments

假设:有一段几秒的语音,其中有关键词在语音内,其余的都是杂音。 问题:如何找到关键词的开始位置和结束位置,并且将其识别?

xingjunhong avatar Jul 31 '23 08:07 xingjunhong

喂数据的时候是一帧一帧的滑动窗口,你可以结合vad来做起始和结束时间戳

majianjia avatar Aug 02 '23 06:08 majianjia

我看main_pc.c脚本,推理时,是每一秒都有一个推理结果,可以用这个结果来当做起始位置吗?

xingjunhong avatar Aug 02 '23 07:08 xingjunhong

取决于你用什么类型的模型,如果是RNN那种,是每十几毫秒就有一帧

majianjia avatar Aug 02 '23 09:08 majianjia