LiveTalking ER-NeRF+hubert模式下实时推理出的画面与直接使用ER-NeRF推理出的效果相差很大

使用ER-NeRF+hubert模式实时推理，出来的画面感觉嘴形与声音对不上。但是直接使用ER-NeRF推理出来的效果就挺好的。请问有办法解决吗？

ER-NeRF推理结果：

https://github.com/lipku/metahuman-stream/assets/174017561/e41b53e4-1f52-4650-9323-f77489d2a517

metahuman-stream推理结果：

https://github.com/lipku/metahuman-stream/assets/174017561/8c9e8c2a-dd2b-468c-a387-686e92246297

推理音频：tts_qingming.wav.zip

Jun 27 '24 12:06 aihu8338

打印的fps多少

Jun 30 '24 03:06 lipku

@lipku ------actual avg infer fps:25.8044 ------actual avg final fps:24.9966

Jul 01 '24 02:07 aihu8338

经过测试发现，hubert的处理速度非常快，上述视频的音频总处理时长仅有0.23秒：

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理，只需要适当断句避免音频过长，然后分段处理即可。这么修改后出来的视频看上去是正常了。这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

Jul 04 '24 09:07 aihu8338

经过测试发现，hubert的处理速度非常快，上述视频的音频总处理时长仅有0.23秒：
SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977
因此不需要实时流式处理，只需要适当断句避免音频过长，然后分段处理即可。这么修改后出来的视频看上去是正常了。这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

你好，问下你音频分段是多少时长一个切片么

Jul 14 '24 12:07 xiao-keeplearning

经过测试发现，hubert的处理速度非常快，上述视频的音频总处理时长仅有0.23秒：
SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977
因此不需要实时流式处理，只需要适当断句避免音频过长，然后分段处理即可。这么修改后出来的视频看上去是正常了。这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

@aihu8338 佬，能分享一下音视频不同步解决代码吗？

Jul 25 '24 19:07 vipxiaoma

@vipxiaoma 没有实现，只是猜测可能可以解决。

Aug 06 '24 02:08 aihu8338

效果真不错牙齿完美

Aug 22 '24 03:08 Embracex1998