mrcp-plugin-with-freeswitch icon indicating copy to clipboard operation
mrcp-plugin-with-freeswitch copied to clipboard

你好,我想请教一下你是如何实现用户不说话是结束识别的?

Open kuwo88 opened this issue 7 years ago • 8 comments

当我们等待用户说话进行识别,但是当用户一直不说话,那detect_speech_result就一直不会执行,我如何设置让他5秒不说话就结束呢?

kuwo88 avatar Sep 18 '18 03:09 kuwo88

我也想知道: 如何设定用户说话的监听,vad

shanghai-Jerry avatar Dec 12 '18 06:12 shanghai-Jerry

实际上如果你替换了unimrcp/data/下的one-8kHz.pcm文件,自己录或找一个说了5秒钟话,然后静音5秒,再说5秒的话,然后运行unimrcpclient的run recog命令,你会看到识别的结果只有第一个5秒钟说的话,中间静音的5秒,unimrcp检测到activity是连续的0了,就自动关闭了channel,不会识别后5秒有话语的语音。但我发现unimrcp的声音检测效果不好,而且敏感度的调节参数(好像是0-256)跳变的比较厉害,因此我自己实现的时候自己编译了一个C语言写的VAD模型(使用GMM训练),使用动态库调用,加了一些后处理,加强了说话结束的识别效果,结果令人满意。

Jerry You [email protected] 于2018年12月12日周三 下午2:56写道:

我也想知道: 如何设定用户说话的监听,vad

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/wangkaisine/mrcp-plugin-with-freeswitch/issues/2#issuecomment-446482591, or mute the thread https://github.com/notifications/unsubscribe-auth/AQwX-ljEO_Tr5pUH1wf0BIw3Xt9_JpWOks5u4KiTgaJpZM4WtG4a .

wangkaisine avatar Dec 20 '18 14:12 wangkaisine

unimrcp检测到activity是连续的0了,就自动关闭了channel,不会识别后5秒有话语的语音。但我发现unimrcp的声音检测效果不好,而且敏感度的调节参数(好像是0-256)跳变的比较厉害

我也发现了这个问题,修改默认的阈值能有一定改善,但是达不到满意的效果

因此我自己实现的时候自己编译了一个C语言写的VAD模型(使用GMM训练),使用动态库调用,加了一些后处理,加强了说话结束的识别效果,结果令人满意。

这个有没有开源, 参考参考

shanghai-Jerry avatar Dec 25 '18 09:12 shanghai-Jerry

百度在webrtc上做的,有开源。

Jerry You [email protected] 于2018年12月25日周二 下午5:07写道:

unimrcp检测到activity是连续的0了,就自动关闭了channel,不会识别后5秒有话语的语音。但我发现unimrcp的声音检测效果不好,而且敏感度的调节参数(好像是0-256)跳变的比较厉害

我也发现了这个问题,修改默认的阈值能有一定改善,但是达不到满意的效果

因此我自己实现的时候自己编译了一个C语言写的VAD模型(使用GMM训练),使用动态库调用,加了一些后处理,加强了说话结束的识别效果,结果令人满意。

这个有没有开源, 参考参考

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/wangkaisine/mrcp-plugin-with-freeswitch/issues/2#issuecomment-449828249, or mute the thread https://github.com/notifications/unsubscribe-auth/AQwX-pElcZunnDocoZxDtp36Y6PlEWg6ks5u8erhgaJpZM4WtG4a .

wangkaisine avatar Dec 27 '18 13:12 wangkaisine

因此我自己实现的时候自己编译了一个C语言写的VAD模型(使用GMM训练),使用动态库调用,加了一些后处理,加强了说话结束的识别效果,结果令人满意。

能否指引一下unimrcp默认的vad功能在哪里实现?在官网只能找到server端调用bing和google的api的vad设置, 找不到client端对音频的vad

hahahaha123567 avatar Apr 15 '19 06:04 hahahaha123567

已经弃用了unimrcp, 改用freeswitch加载定制的语音识别模块so文件,这样只需根据第三方语音识别api做处理,很大程度方面修改。

shanghai-Jerry avatar Apr 15 '19 10:04 shanghai-Jerry

能否说下“freeswitch加载定制的语音识别模块so文件”的开发思路

bobokingbao avatar Jun 01 '19 15:06 bobokingbao

能否说下“freeswitch加载定制的语音识别模块so文件”的开发思路

这是一个定制语音识别so文件开发的demo库,可以参考开发自己的so https://github.com/cdevelop/FreeSWITCH-ASR

shanghai-Jerry avatar Jun 06 '19 07:06 shanghai-Jerry