MaxMax2016
MaxMax2016
这个bert模型是用停顿训练的;bert的char embedding通过softmax可以得到停顿标注 #1 #2 ~~~;用显示的停顿标注训练TTS,需要将将停顿标注转换成embedding;有点多余的感觉,所以就直接用的char embedding。
所以说可以理解为这个bert embedding用来控制停顿+韵律,输入文本,bert会自动预测停顿 --是的 和文本中的标点符号没有直接关系呗? --bert支持标点吧,时间有点久了,记不太清了
数据中标注吗,有的话训练好biaobei模型后,使用您的数据直接继续训练biaobei模型。
汉字标注,韵律没有标注的话、使用韵律模型的推理结果去训练
您可以先研究下,针对这个问题我需要做个专题。
推理代码里面,汉字转换为韵律和发音单元,您把他们作为训练标注,可能需要手动修改多音字标注的错误。
请问可以用微调实现吗?有点看运气、无法确定 我自己的数据集是需要像biaobei数据集一样准备吗? 是的 a. xxx.wav音频 (训练时放在data/waves目录下) 是的 b. 整理文字xxx.txt文档 (训练时放在data目录下)汉字+拼音 c.不需要,VITS用的MAS,不需要时长标注 有两个prepare,按需取用 vits_prepare.py vits_prepare_4_custom_speaker.py
需要提前将音频重采用为16000 https://github.com/PlayVoice/vits_chinese/issues/36#issuecomment-1469269333
不是,如果有多发音人预训练模型、可以用它进行微调