yuheng
yuheng
> 试过了哈哈哈,其实就算加载一份模型,在musetalk部分,也是会生成音频特征器占用显存 音频特征模型也只加载一份。 另外音频特征模型占用显存应该不大。这部分代码可以分享一下吗,我还没调试成功
musetalk太耗gpu了,用wav2lip可以
最好贴个视频,应该跟眼镜有关系,需要定位人脸五官
Musetalk use much gpu compution,you should use wav2lip
这种应用场景是什么,就算真人对话也需要对方说话了再打断
这个需要改前端实现,商业版有这个功能
用rtcpush方式,连接同一个地址就是相同的视频
语音输入是在前端采集声音用asr转成文字后与后端交互的,不需要改后端
用turn转发,微信公众号里有介绍
没有遇到过这个问题 在什么系统上,用的什么模型,把运行命令发出来