GPT-SoVITS 文字中带有较多重复时，比较容易拖音，空白，漏句

trafficstars

比如 “粉红墙上画凤凰，凤凰画在粉红墙。红凤凰，粉凤凰，红粉凤凰，花凤凰。红凤凰，黄凤凰，红粉凤凰，粉红凤凰，花粉花凤凰。” 底模和自己训练的模型都测试过，均有不同程度的问题。

Apr 24 '24 02:04 Joy-word

另外，关于 top_p 和 top_k 的采样，代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围，再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好？

Apr 24 '24 05:04 Joy-word

另外，关于 top_p 和 top_k 的采样，代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围，再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好？

疑问+1，发现 top_k_top_p_filtering() 和 logits_to_probs() 两个函数的 top_k top_p 顺序不一样. 一般都该先 top_k 后 top_p 吧.

Apr 24 '24 09:04 SapphireLab

遇到重复的词很容易出问题，苦恼很久了

Apr 26 '24 15:04 caixiaoxi

另外，关于 top_p 和 top_k 的采样，代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围，再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好？

我一般用AI翻译是你说的这种我都是直接top_k=0，音频模型这样只能是相对语气更一致吧？

Apr 27 '24 15:04 hyhuc0079

只调节top_p 和 top_k好像解决不了丢字问题， case：“我们低估了四川，低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺，茶客用阵阵茶香，传达生活真谛。” 这几个字“低估了四川” 丢了，这个问题出在哪里呢，有什么好的解决方案吗？

May 05 '24 10:05 gowtdy

只调节top_p 和 top_k好像解决不了丢字问题， case：“我们低估了四川，低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺，茶客用阵阵茶香，传达生活真谛。” 这几个字“低估了四川” 丢了，这个问题出在哪里呢，有什么好的解决方案吗？

这个问题现在解决了吗？

May 06 '24 03:05 wodeqiansuihan

只调节top_p 和 top_k好像解决不了丢字问题， case：“我们低估了四川，低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺，茶客用阵阵茶香，传达生活真谛。” 这几个字“低估了四川” 丢了，这个问题出在哪里呢，有什么好的解决方案吗？

这个问题现在解决了吗？

没有

May 07 '24 13:05 gowtdy

按标点符号切就好了。

May 29 '24 09:05 hscspring

按标点符号切就好了。

是的，包括诡异笑声和恶魔低语，按标点符号切虽然不能百分百避免，但是出现的概率会极低，我批量处理1000+行的文本，只有一行出现恶魔地狱

Jun 23 '24 10:06 lemonly14

GPT-SoVITS GPT-SoVITS copied to clipboard