YoungSeng
YoungSeng
你提的问题非常好,是的,hparams.py也要用autovc中的,因为My_model里的参数import是通过https://github.com/YoungSeng/SRD-VC/blob/d225c47455b5c67e94daeb91b8b98781c43932ed/My_model/demo.py#L5 为了使用方便,我也上传了我的autovc文件夹,其中修改了一行代码:https://github.com/YoungSeng/SRD-VC/blob/d225c47455b5c67e94daeb91b8b98781c43932ed/autovc/synthesis.py#L11
1. 不是必须的,只是一般我们需要划分训练集、验证集和测试集,另外我选出来内容和长度一样的音频加入测试集方便做MCD,长度不一样的话后面也可以用DTW,以及选了长度不超过128*3的音频。如果你基础一般,我建议你可以先只用两个说话人的少量音频数据写代码,这样方便debug; 2. data_split.py写的比较乱,你可以重新写一下,这个只是参考,有些代码可以尝试取消注释; 3. 这两个文件夹是把所有的mel谱和音高曲线拼到一起,正如Speechsplit一样,我刚刚上传了我项目中的`wav_cat.py`文件,可以作为参考
你pdb看一下code_exp_1, code_exp_2, code_exp_3的维度,有384和192的,不能cat到一起
那看起来如果要cat的话需要第二个维度一致,可以尝试一下:code_exp_4.unsqueeze(1).expand(-1, 192, -1) 或者把超参数里的MAX_LEN=192改成384试一试
可以,但是我建议最好检查一下len(aa) 与 len_crop[0]的大小关系,解决low >= high的问题。 你这么写可能导致有些数据不能被随机数访问到。
你的这个问题好像不是gpu id的问题?这个错误是说G2需要5个输入参数content, pitch, rhythm, mel_2, MAX_LEN但是你输入了六个
不是的,我看了一下我应该是用的p225_001的音频和p232_001的数据进行的debug测试,我记得好像没有上传SpeechSplit相应的数据吧,因为它只能集内数据进行VC,不能进行one-shot VC,我还是上传了我的SpeechSplit文件夹,其中[test.pkl](https://github.com/YoungSeng/SRD-VC/blob/master/SpeechSplit/assets/test_mel/test.pkl),希望对你有帮助。
> 作者您好,我想问一下您的SpeechSplit文件夹,其中test.pkl是如何生成的,我查看了一下,它与我使用My_model/make_test_metadata.py生成的内容不一样 我上传了处理这个文件的代码:https://github.com/YoungSeng/SRD-VC/blob/master/SpeechSplit/make_test_metadata.py,希望对你有帮助
我在这上面回复了,请查收 https://github.com/YoungSeng/SRD-VC/issues/8 ------------------ 原始邮件 ------------------ 发件人: "YoungSeng/SRD-VC" ***@***.***>; 发送时间: 2022年10月27日(星期四) 下午5:20 ***@***.***>; ***@***.******@***.***>; 主题: Re: [YoungSeng/SRD-VC] 关于demo.py的问题 (Issue #8) 作者您好,我想问一下您的SpeechSplit文件夹,其中test.pkl是如何生成的,我查看了一下,它与我使用My_model/make_test_metadata.py生成的内容不一样 — Reply to this email directly, view it on GitHub, or unsubscribe. You are...
需要的,mel extractor和vocoder都是一套的,现在这个是在英文数据集上的,如果需要中文的需要自己重新训练一下或者找一下有没有中文上预训练好的vocoder的mel extractor