MaxMax2016 comments

Results 243 comments of


                                            MaxMax2016

能否增加：角色1、角色2。。。，请问如何修改呢？

我晚上看看这个，您不是第一个遇到这个问题的了，看来用windows的同学还挺多。

for the error @cypinpai https://github.com/PlayVoice/vits_chinese/blob/master/vits_infer.py#L50 fo = open("vits_infer_item.txt", "r+") fo = open("vits_infer_item.txt", "r+", encoding='utf-8') use this for windows

能否增加：角色1、角色2。。。，请问如何修改呢？

可以针对标点符号修改预测的时长来增加停顿，有空的话我提供一个示例。 > 刚测试推理，大概最多支持500出头中文字数，发音完美，如果标点符号和段落能稍微停顿时间长些就完美了。谢谢大佬的付出！

能否增加：角色1、角色2。。。，请问如何修改呢？

@cypinpai https://github.com/PlayVoice/vits_chinese/blob/master/vits_prepare.py#L61

能否增加：角色1、角色2。。。，请问如何修改呢？

@cypinpai 需要将wav转换为16000采样率，这个是基本操作，所以没有提供代码。

如何制作自己的数据集。

#1~4 在这里是没有用到的，使用带标点的中文句子和正确的拼音，加上对应的音频就可以训练。

如何制作自己的数据集。

@tocmike 亲，你是想做语音克隆吧，克隆还是在他项目里面做实验https://github.com/PlayVoice/lora-svc

提供了基于因果卷积的低时延流式生成和chunk流式生成机制

声学模型SAM-BERT 后端模块中声学模型采用自研的SAM-BERT,将时长模型和声学模型联合进行建模。结构如[图2]所示 1. Backbone采用Self-Attention-Mechanism(SAM)，提升模型建模能力。 2. Encoder部分采用BERT进行初始化，引入更多文本信息，提升合成韵律。 3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测，再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息，结合自回归结构，进一步提升韵律自然度. 4. Decoder部分采用PNCA AR-Decoder[@li2020robutrans]，自然支持流式合成。声码器模型:HIFI-GAN 后端模块中声码器采用HIFI-GAN, 基于GAN的方式利用判别器(Discriminator)来指导声码器(即生成器Generator)的训练，相较于经典的自回归式逐样本点CE训练, 训练方式更加自然，在生成效率和效果上具有明显的优势。在HIFI-GAN开源工作[1]的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了**基于因果卷积的低时延流式生成和chunk流式生成机制**，可与声学模型配合支持CPU、GPU等硬件条件下的实时流式合成。

is this better than diff svc and so vit svc?

whisper is from openai .

is this better than diff svc and so vit svc?

from now on, whisper is the best audio encoder for svc.这个项目的目的就是为了去证明这一点。