limengtao comments

Results 3 comments of


                                            limengtao

上面这个case的prompt audio以[S1]开头和[S1]结束，似乎是由于这个问题。我将[S1][S2]对照的方式重新构造了prompt audio，缓解了说话人切换出错这个问题。现在遇到了新的问题：我想通过lora训练来稳定音色，数据来源采用了合成数据而非真实数据。数据本身是不包含杂音的，但是训练后，推理出的音频出现了两个bug： 1. 推理崩溃，模型开始无意义输出直到9min 2. 开头或结尾出现奇怪音乐或鼓点类声音的概率变高。 v0.7真的是一个很棒的模型，相比于v0.5能感觉到提升了很多，但是想让他更完美一点还需要解决上面微调的问题。

如何固定音色

+1，同样在寻求这个问题的解决办法

limengtao

请问提高音色稳定性的版本大概什么时候出

新版模型说话人切换出错

如何固定音色