GPT-SoVITS
GPT-SoVITS copied to clipboard
文字中带有较多重复时,比较容易拖音,空白,漏句
比如 “粉红墙上画凤凰,凤凰画在粉红墙。 红凤凰,粉凤凰, 红粉凤凰,花凤凰。 红凤凰,黄凤凰,红粉凤凰,粉红凤凰,花粉花凤凰。” 底模和自己训练的模型都测试过,均有不同程度的问题。
另外,关于 top_p 和 top_k 的采样,代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围,再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好?
另外,关于 top_p 和 top_k 的采样,代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围,再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好?
疑问+1,发现 top_k_top_p_filtering() 和 logits_to_probs() 两个函数的 top_k top_p 顺序不一样. 一般都该先 top_k 后 top_p 吧.
遇到重复的词很容易出问题,苦恼很久了
另外,关于 top_p 和 top_k 的采样,代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围,再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好?
我一般用AI翻译是你说的这种我都是直接top_k=0,音频模型这样只能是相对语气更一致吧?
只调节top_p 和 top_k好像解决不了丢字问题, case:“我们低估了四川,低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺,茶客用阵阵茶香,传达生活真谛。” 这几个字“低估了四川” 丢了, 这个问题出在哪里呢, 有什么好的解决方案吗?
只调节top_p 和 top_k好像解决不了丢字问题, case:“我们低估了四川,低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺,茶客用阵阵茶香,传达生活真谛。” 这几个字“低估了四川” 丢了, 这个问题出在哪里呢, 有什么好的解决方案吗?
这个问题现在解决了吗?
只调节top_p 和 top_k好像解决不了丢字问题, case:“我们低估了四川,低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺,茶客用阵阵茶香,传达生活真谛。” 这几个字“低估了四川” 丢了, 这个问题出在哪里呢, 有什么好的解决方案吗?
这个问题现在解决了吗?
没有
按标点符号切就好了。
按标点符号切就好了。
是的,包括诡异笑声和恶魔低语,按标点符号切虽然不能百分百避免,但是出现的概率会极低,我批量处理1000+行的文本,只有一行出现恶魔地狱