CycleGAN-VC2 icon indicating copy to clipboard operation
CycleGAN-VC2 copied to clipboard

是否数据量越多,转换的语音质量越好呢?

Open ghost opened this issue 4 years ago • 2 comments

  1. 如果我有A数据量很多,B数据量较少,通过B转换为A的音色,效果会怎样呢?

  2. 关于数据量的关系,您有相关的分析吗?例如ABCD数据量都较多,是否相互转换音质高一点呢?又例如A多B少,A转B和B转A效果各自会怎样?

  3. 男声和女声之间的转换效果如何?

  4. 怎样的声音转换的效果会好一点?

  5. 这个方案做多个说话人转为一个说话人有效果吗?

  6. 另外,Donation可以提供支付宝或微信二维码,中国同学更熟悉。

ghost avatar Dec 11 '20 06:12 ghost

关于第一个和第二个问题: 关于论文和我自己实验,都是A,B均15分钟左右,就可以达到比较好的效果。 首先,数据更少,效果大概率会下降;但是数据更多,也不一定能提升的很明显。 其次,A,B的数量不均衡,没做过实验。但是估测,在15分钟的量级上,如果相差特别多,那应该效果会偏向多的那个人。

3 男女之间的转换,我做过实验,效果相对来说,是不如同性之间的效果好。但转换还是很像的,只是人能听出差别。

  1. 数据尽量质量高点。如 无背景音,录音质量等。语音方面的数据,特别依赖音质。

  2. 这个模型的架构就是 1-to-1, 如果做 多-to-1, 需要拆分成 N 个 1-to-1

  3. 已增加,谢谢。

jackaduma avatar Jan 18 '21 03:01 jackaduma

  1. 如果我有A数据量很多,B数据量较少,通过B转换为A的音色,效果会怎样呢?
  2. 关于数据量的关系,您有相关的分析吗?例如ABCD数据量都较多,是否相互转换音质高一点呢?又例如A多B少,A转B和B转A效果各自会怎样?
  3. 男声和女声之间的转换效果如何?
  4. 怎样的声音转换的效果会好一点?
  5. 这个方案做多个说话人转为一个说话人有效果吗?
  6. 另外,Donation可以提供支付宝或微信二维码,中国同学更熟悉。

已回答,谢谢

jackaduma avatar Jan 18 '21 03:01 jackaduma