MaxMax2016 comments

Results 243 comments of


                                            MaxMax2016

> @MaxMax2016 对于结束的处理似乎有bug，测试了4句， `遥望星空作文独自坐在乡间的小丘上，看着阳光渐渐变暗，听着鸟鸣渐渐变弱，触着清风渐渐变凉时光总是慢慢地偷走我们的容颜，渐渐地有些人终将离我们而远去白色的樱花纯洁高尚，红色的樱花热烈奔放，绿色的樱花清晰澹雅，花开的美丽与快乐，花落的烂漫与潇洒都蕴藏着樱花的人生智慧汽车文化节是学校校园文化的浓缩，是学校办学特色的呈现，是全体师生魅力展现的一个平台。它进一步丰富校园文化生活，营造积极向上、清新高雅、健康文明的校园文化氛围，展现同学们积极向上的精神风貌，文化节又为同学们提供了一个发现自我、充实自我、展现自我的舞台，是我校全面实施全素质教育的又一次展示，同时也是搭建校企合作的良好平台。` > > 前三句都是最后一个字出不来，最后一句是正确的。 @kendo6666 最后那句有句号，你看看是不是这个原因

请教支持流式输出吗？

> @MaxMax2016 是的，默认的测试用例没有句号，加上后就完整了。^。^ > 另外，流式和非流式声音质量没有影响。 > 我看到流式实现，在text encoder/时长预测/ResidualCouplingBlock等处理与非流式都是相同的，在音频解码时按chunk输出。这意味着vits-chinese中的text encoder/时长预测/ResidualCouplingBlock等处理都是可以重入的，对吧？我指的重入是，在处理当前这一句的音频解码时，就可以同时处理下一句的text encoder了，对吧？ @kendo6666 这个想法非常不错，其实流式实现本来就要把VITS拆解为两个部分，decoder和其他。你的想法是对的，很赞的想法。编码部分用GPU处理，然后解码部分用CPU解码、流式输出，极大的合理利用计算资源。

请教支持流式输出吗？

> 很抱歉，因为查了很多资料都没能找到，希望能得知怎样操作才能实时播放流式输出的音频呢？具体我也没实际做过，查了下资料，可能是这样实现： ``` import pyaudio # 初始化播放器 p = pyaudio.PyAudio() stream = p.open(format=p.get_format_from_width(2), channels=1, rate=16000, output=True) # 将 pcm 数据直接写入 PyAudio 的数据流 # with open("f1.pcm", "rb") as f: #...

请教支持流式输出吗？

@liroda hop_frame = 9 修改为 hop_frame = 12 https://github.com/PlayVoice/vits_chinese/blob/bert_vits/vits_infer_onnx_stream.py#L191

请教支持流式输出吗？

要不把flow放在encoder里面试试？

反向kl loss 微调

可以参考 bert_vits_aishell3分支，加入反向kl loss微调时，反向kl loss的比例应该根据使用的数据去调试，比如我在AISHELL3数据上使用了0.05，冻结PosteriorEncoder, https://github.com/PlayVoice/vits_chinese/blob/bert_vits_aishell3/train.py#L266 https://github.com/PlayVoice/vits_chinese/blob/bert_vits_aishell3/train.py#L123

反向kl loss 微调

这个出至微软nature speech，在优质语料上面使用这个loss确实没什么问题；在其他语料上面，这个loss不稳定，反而容易使得训练效果变差；所以在不使用这个loss前，把模型训练到能训练的状态，保存状态，需要用这个状态进行后面的多次尝试；然后设计一个权重、加入这个loss继续训练，如果效果没有改善就减小这个loss的权重，当减小到非常小的时候也没改善，建议放弃这个loss。 > 另外，如果有这种观察，是不是把反向kl loss的参数设置成自动增加，会比较好？这个loss不太好调

Bert 加入以后, 底模训练, KL loss爆炸.

我没研究过IPA，不知道您有没有推荐的IPA方案呢，我研究下将拼音替换为IPA