sherpa-onnx
sherpa-onnx copied to clipboard
请教关于说话人日志(diarization)的性能优化问题。
老师您好!我碰到了一个性能优化问题,以下是我的问题描述: 功能需求: 对录音进行语音识别和说话人日志整合。 1. 语音识别文字,已使用whisper.cpp实现完成; 2. 说话人日志,采用sherpa-onnx实现了CPU推理。
我的whisper.cpp采用了vulkan加速,因为 sherpa-onnx 不支持vulkan加速,纯CPU推理的话,导致了对长录音执行时间太长,性能太低。但是用cuda是不现实的,因为cuda环境的安装对于普通pc用户来说还是有一定门槛的,而且cuda只支持nvidia显卡,所以只能抛弃掉。 目前我有一个设想,就是从 whisper.cpp 推理出来有时间戳,我能不能从这个时间戳中抽取出一小段音频给 sherpa-onnx 用嵌入模型进行说话人识别呢?这样就可以剩掉了分段模型的推理时间,虽然相对于采用分段模型进行分段,这个方法可能精度不是太高,但是这已经是我目前能想到的比较平衡的性能优化方案了。 如果上述优化方案可以实现的话,老师能不能指导一下实现的思路呢?或您有更好的方案的话,还请您不吝赐教,谢谢您!