vits_chinese
vits_chinese copied to clipboard
Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!
例如:开嗯好呃 Traceback (most recent call last): File "../vits_chinese-2.0/vits_infer.py", line 77, in phonemes, char_embeds = tts_front.chinese_to_phonemes(item) File "..\vits_chinese-2.0\vits_pinyin.py", line 75, in chinese_to_phonemes char_embeds = self.prosody.expand_for_phone(char_embeds, count_phone) File "..\vits_chinese-2.0\bert\ProsodyModel.py", line 60, in...
想请问下 prosody_model.pt 是怎么得到的,有做什么微调操作吗
hi @MaxMax2016 , CLONE的稳定性和效果好像比VITS好,有计划实现下这个框架么 https://arxiv.org/pdf/2207.06088.pdf
感谢提供标准的中文模型,网上基本上都是大佐口气! 1、请问vits_bert_model.pth是放在根目录吗?运行出错了。 put prosody_model.pt To ./bert/prosody_model.pt put vits_bert_model.pth To ./vits_bert_model.pth python vits_infer.py --config ./configs/bert_vits.json --model vits_bert_model.pth D:\DATA\Downloads\vits_chinese\vits_chinese-master>python vits_infer.py --config ./configs/bert_vits.json --model vits_bert_model.pth nothing of except: 'gbk' codec can't decode byte...
我有差不多2小时的人声,想用来做自己的数据集训练。 貌似要将wav文件制作对应的 000001-010000.txt文件。这个文件是怎么做的。比如: > 000001 卡尔普#2陪外孙#1玩滑梯#4。 > ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1 #2, #1, #4 都是什么意思呢。有软件可以直接生成txt文件吗? 谢谢
我的数据量太小,不想从头开始训练。
大佬 这个如果我音频数据集里有多个男女声音,可以直接用来训练吗 训练出来的是多个 pth,每一个对应一个人吗
hi大佬,咨询一下bert模型,当输入是英文文本时,也可以处理。换句话说,这里使用的bert, 是中英混数据训练的吗?