MaxMax2016
MaxMax2016
我晚上看看这个,您不是第一个遇到这个问题的了,看来用windows的同学还挺多。
for the error @cypinpai https://github.com/PlayVoice/vits_chinese/blob/master/vits_infer.py#L50 fo = open("vits_infer_item.txt", "r+") fo = open("vits_infer_item.txt", "r+", encoding='utf-8') use this for windows
可以针对标点符号修改预测的时长来增加停顿,有空的话我提供一个示例。 > 刚测试推理,大概最多支持500出头中文字数,发音完美,如果标点符号和段落能稍微停顿时间长些就完美了。谢谢大佬的付出!
@cypinpai https://github.com/PlayVoice/vits_chinese/blob/master/vits_prepare.py#L61
@cypinpai 需要将wav转换为16000采样率,这个是基本操作,所以没有提供代码。
#1~4 在这里是没有用到的,使用 带标点的中文句子和正确的拼音,加上对应的音频就可以训练。
@tocmike 亲,你是想做语音克隆吧,克隆还是在他项目里面做实验https://github.com/PlayVoice/lora-svc
声学模型SAM-BERT 后端模块中声学模型采用自研的SAM-BERT,将时长模型和声学模型联合进行建模。结构如[图2]所示 1. Backbone采用Self-Attention-Mechanism(SAM),提升模型建模能力。 2. Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律。 3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度. 4. Decoder部分采用PNCA AR-Decoder[@li2020robutrans],自然支持流式合成。 声码器模型:HIFI-GAN 后端模块中声码器采用HIFI-GAN, 基于GAN的方式利用判别器(Discriminator)来指导声码器(即生成器Generator)的训练,相较于经典的自回归式逐样本点CE训练, 训练方式更加自然,在生成效率和效果上具有明显的优势。 在HIFI-GAN开源工作[1]的基础上,我们针对16k, 48k采样率下的模型结构进行了调优设计,并提供了**基于因果卷积的低时延流式生成和chunk流式生成机制**,可与声学模型配合支持CPU、GPU等硬件条件下的实时流式合成。
whisper is from openai .
from now on, whisper is the best audio encoder for svc.这个项目的目的就是为了去证明这一点。