请问，音频时长和数字人推理出来的时长是否有差值

Open zhcngh opened this issue 1 year ago • 0 comments

请问大佬：比如音频时长10秒，每隔10秒通过human接口向数字人echo一次，就这样一两个小时以后，在数字人推理队列中，会有堆积的音频？也就是说，是不是推理出来的数字人时长和音频时长实际会有一点偏差，数字人稍稍慢一点点，时间长了，越来越慢，后面再echo进来音频就排队了？

如果是这样的话，有什么办法解决，或修正吗？

我想到的是每隔一段时间强制 interrupt=true一次，但这样会立马中断正在推理的和丢失已经在queue中的音频。

感谢指点一下。

Aug 29 '24 14:08 zhcngh