LiveTalking icon indicating copy to clipboard operation
LiveTalking copied to clipboard

ER-NeRF+hubert模式下实时推理出的画面与直接使用ER-NeRF推理出的效果相差很大

Open aihu8338 opened this issue 1 year ago • 7 comments

使用ER-NeRF+hubert模式实时推理,出来的画面感觉嘴形与声音对不上。 但是直接使用ER-NeRF推理出来的效果就挺好的。 请问有办法解决吗?

ER-NeRF推理结果:

https://github.com/lipku/metahuman-stream/assets/174017561/e41b53e4-1f52-4650-9323-f77489d2a517

metahuman-stream推理结果:

https://github.com/lipku/metahuman-stream/assets/174017561/8c9e8c2a-dd2b-468c-a387-686e92246297

推理音频:tts_qingming.wav.zip

aihu8338 avatar Jun 27 '24 12:06 aihu8338

打印的fps多少

lipku avatar Jun 30 '24 03:06 lipku

@lipku ------actual avg infer fps:25.8044 ------actual avg final fps:24.9966

aihu8338 avatar Jul 01 '24 02:07 aihu8338

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

aihu8338 avatar Jul 04 '24 09:07 aihu8338

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

你好,问下你音频分段是多少时长一个切片么

xiao-keeplearning avatar Jul 14 '24 12:07 xiao-keeplearning

经过测试发现,hubert的处理速度非常快,上述视频的音频总处理时长仅有0.23秒:

SR: 24000 to 16000 time 0.024374520406126976
hubert time 0.21406333334743977

因此不需要实时流式处理,只需要适当断句避免音频过长,然后分段处理即可。这么修改后出来的视频看上去是正常了。 这么做大概还可以解决视频推理速度慢导致音视频不同步、卡顿的问题。

@aihu8338 佬,能分享一下音视频不同步解决代码吗?

vipxiaoma avatar Jul 25 '24 19:07 vipxiaoma

@vipxiaoma 没有实现,只是猜测可能可以解决。

aihu8338 avatar Aug 06 '24 02:08 aihu8338

效果真不错 牙齿完美

Embracex1998 avatar Aug 22 '24 03:08 Embracex1998