MaxMax2016

Results 243 comments of MaxMax2016

用预训练模型,只影响输出

好的,等我有空的时候再看看,还有其他问题没有呢,主要是和非流式效果的差异?

> @MaxMax2016 对于结束的处理似乎有bug, 测试了4句, `遥望星空作文独自坐在乡间的小丘上,看着阳光渐渐变暗,听着鸟鸣渐渐变弱,触着清风渐渐变凉 时光总是慢慢地偷走我们的容颜,渐渐地有些人终将离我们而远去 白色的樱花纯洁高尚,红色的樱花热烈奔放,绿色的樱花清晰澹雅,花开的美丽与快乐,花落的烂漫与潇洒都蕴藏着樱花的人生智慧 汽车文化节是学校校园文化的浓缩,是学校办学特色的呈现,是全体师生魅力展现的一个平台。它进一步丰富校园文化生活,营造积极向上、清新高雅、健康文明的校园文化氛围,展现同学们积极向上的精神风貌,文化节又为同学们提供了一个发现自我、充实自我、展现自我的舞台,是我校全面实施全素质教育的又一次展示,同时也是搭建校企合作的良好平台。` > > 前三句都是最后一个字出不来,最后一句是正确的。 @kendo6666 最后那句有句号,你看看是不是这个原因

> @MaxMax2016 是的,默认的测试用例没有句号,加上后就完整了。^。^ > 另外,流式和非流式声音质量没有影响。 > 我看到流式实现,在text encoder/时长预测/ResidualCouplingBlock等处理与非流式都是相同的,在音频解码时按chunk输出。这意味着vits-chinese中的text encoder/时长预测/ResidualCouplingBlock等处理都是可以重入的,对吧? 我指的重入是,在处理当前这一句的音频解码时,就可以同时处理下一句的text encoder了,对吧? @kendo6666 这个想法非常不错,其实流式实现本来就要把VITS拆解为两个部分,decoder和其他。你的想法是对的,很赞的想法。编码部分用GPU处理,然后解码部分用CPU解码、流式输出,极大的合理利用计算资源。

> 很抱歉,因为查了很多资料都没能找到,希望能得知怎样操作才能实时播放流式输出的音频呢? 具体我也没实际做过,查了下资料,可能是这样实现: ``` import pyaudio # 初始化播放器 p = pyaudio.PyAudio() stream = p.open(format=p.get_format_from_width(2), channels=1, rate=16000, output=True) # 将 pcm 数据直接写入 PyAudio 的数据流 # with open("f1.pcm", "rb") as f: #...

@liroda hop_frame = 9 修改为 hop_frame = 12 https://github.com/PlayVoice/vits_chinese/blob/bert_vits/vits_infer_onnx_stream.py#L191

要不把flow放在encoder里面试试?

可以参考 bert_vits_aishell3分支,加入反向kl loss微调时,反向kl loss的比例应该根据使用的数据去调试,比如我在AISHELL3数据上使用了0.05,冻结PosteriorEncoder, https://github.com/PlayVoice/vits_chinese/blob/bert_vits_aishell3/train.py#L266 https://github.com/PlayVoice/vits_chinese/blob/bert_vits_aishell3/train.py#L123

这个出至微软nature speech,在优质语料上面使用这个loss确实没什么问题; 在其他语料上面,这个loss不稳定,反而容易使得训练效果变差; 所以在不使用这个loss前,把模型训练到能训练的状态,保存状态,需要用这个状态进行后面的多次尝试; 然后设计一个权重、加入这个loss继续训练,如果效果没有改善就减小这个loss的权重,当减小到非常小的时候也没改善,建议放弃这个loss。 > 另外,如果有这种观察,是不是把反向kl loss的参数设置成自动增加,会比较好? 这个loss不太好调

我没研究过IPA,不知道您有没有推荐的IPA方案呢,我研究下将拼音替换为IPA