YoungSeng
YoungSeng
mel提取器,我强烈建立先从AutoVC入手,本项目的mel提取和speechsplit是一样的:https://github.com/auspicious3000/SpeechSplit/blob/10fd57e8fe2570010bbf6dd18ec210c41efe7ddd/make_spect_f0.py#L57 是的,可以重新训练,但是我建议使用别人预训练好的模型,然后替代掉我们这些项目中的mel extractor和vocoder,你可以上这个上面找一找有没有预训练好的模型:https://huggingface.co/ 希望对你有帮助
您好,感谢关注此工作, 1. lld_loss是收敛的,之后稳定在一个范围;建议可以先跑一遍VQMIVC看看,那个效果不错 2. 我记得是都是更新的 3. 实测中我也遇到过NAN,然后设置修剪和调小学习率跑了几遍才可以,检查数据没遇到问题有点玄学
你尝试一下把mi的权重调小呢?或者设为0先试试呢?能够收敛吗
mi loss权重为0了,整个loss是否能够收敛?batch size有多大,尝试将mi loss权重设置为更小的数值呢?
I've uploaded it to google drive, you can see the updated `readme` or download it here https://github.com/YoungSeng/SRD-VC/issues/10
不支持,扩散模型推理很慢;另NV有Audio2Gesture也可以实时生成
预训练数据具体是指? [DiffuseStyleGesture](https://github.com/YoungSeng/DiffuseStyleGesture) 是在ZEGGS上训练的,[DiffuseStyleGesture+](https://github.com/YoungSeng/DiffuseStyleGesture/tree/master/BEAT-TWH-main)是在 BEAT 还有TWH上训练的;推理可以用中文的语音但是效果一般,毕竟训练数据集中没有见过中文,且WavLM也是英文的预训练特征 BEAT 有中文数据集你可以试着训练一下
可以参考[原始论文](https://github.com/ai4r/Gesture-Generation-from-Trimodal-Context)自己训练一个AE,[之前的工作](https://github.com/YoungSeng/ReprGesture)有传过AE,但是不同数据以及你选用的joints都只用用特定的AE,例如BEAT中提供了[预训练好的300代的AE](https://github.com/PantoMatrix/BEAT?tab=readme-ov-file#benchmark),但是我感觉只能在那种特征的情况下做,无法很好的扩展
Yes, I didn't provide this file because of possible copyright issues. I think this file you can get on the official Vicon website or you can use the fpx in...
Sorry, I haven't looked for this; I'm not sure if it's from the company and if it's completely risk-free (it may be part of the company's assets), so sharing it...