NS2VC icon indicating copy to clipboard operation
NS2VC copied to clipboard

diff-vits vs NS2 tts-v2

Open yiwei0730 opened this issue 9 months ago • 2 comments

想要請教您幾個問題

  1. 想請問diff-vits這個項目與ns2 tts-v2的差別在哪裡 目前粗略看過去以及以前有看到,似乎是將主模型改成vits但留下了naturalspeech的架構?
  2. 我在tts-v2的模型中測試了一個1500+音色 600+hr的訓練資料集,測試集外數據還是會有大部分不太相似的情況。 是否真如論文所測試,需要更大量的數據集才能有集外的泛化性效果。您認為大概需要多少小時和多少資料以上的音色才能有較好的結果。
  3. 想請問您覺得MFA所預測出來的ground-truth duration與利用MAS預測出來的duration 兩者的差別在哪,您似乎比較偏好於MAS的預測系統。

yiwei0730 avatar Oct 04 '23 08:10 yiwei0730