GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

文字中带有较多重复时,比较容易拖音,空白,漏句

Open Joy-word opened this issue 1 year ago • 10 comments
trafficstars

比如 “粉红墙上画凤凰,凤凰画在粉红墙。 红凤凰,粉凤凰, 红粉凤凰,花凤凰。 红凤凰,黄凤凰,红粉凤凰,粉红凤凰,花粉花凤凰。” 底模和自己训练的模型都测试过,均有不同程度的问题。

Joy-word avatar Apr 24 '24 02:04 Joy-word

另外,关于 top_p 和 top_k 的采样,代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围,再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好?

Joy-word avatar Apr 24 '24 05:04 Joy-word

另外,关于 top_p 和 top_k 的采样,代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围,再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好?

疑问+1,发现 top_k_top_p_filtering()logits_to_probs() 两个函数的 top_k top_p 顺序不一样. 一般都该先 top_k 后 top_p 吧.

SapphireLab avatar Apr 24 '24 09:04 SapphireLab

遇到重复的词很容易出问题,苦恼很久了

caixiaoxi avatar Apr 26 '24 15:04 caixiaoxi

另外,关于 top_p 和 top_k 的采样,代码里是先 top_p 再 top_k。个人理解先通过设置一个相对宽松的k值来大致界定一个候选词的范围,再用一个较严格的p值来从这个范围内进一步筛选词汇会不会更好?

我一般用AI翻译是你说的这种我都是直接top_k=0,音频模型这样只能是相对语气更一致吧?

hyhuc0079 avatar Apr 27 '24 15:04 hyhuc0079

只调节top_p 和 top_k好像解决不了丢字问题, case:“我们低估了四川,低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺,茶客用阵阵茶香,传达生活真谛。” 这几个字“低估了四川” 丢了, 这个问题出在哪里呢, 有什么好的解决方案吗?

gowtdy avatar May 05 '24 10:05 gowtdy

只调节top_p 和 top_k好像解决不了丢字问题, case:“我们低估了四川,低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺,茶客用阵阵茶香,传达生活真谛。” 这几个字“低估了四川” 丢了, 这个问题出在哪里呢, 有什么好的解决方案吗?

这个问题现在解决了吗?

wodeqiansuihan avatar May 06 '24 03:05 wodeqiansuihan

只调节top_p 和 top_k好像解决不了丢字问题, case:“我们低估了四川,低估了它隐藏在熊猫、火锅、麻将之下的魅力人声喧闹的市井茶铺,茶客用阵阵茶香,传达生活真谛。” 这几个字“低估了四川” 丢了, 这个问题出在哪里呢, 有什么好的解决方案吗?

这个问题现在解决了吗?

没有

gowtdy avatar May 07 '24 13:05 gowtdy

按标点符号切就好了。

hscspring avatar May 29 '24 09:05 hscspring

按标点符号切就好了。

是的,包括诡异笑声和恶魔低语,按标点符号切虽然不能百分百避免,但是出现的概率会极低,我批量处理1000+行的文本,只有一行出现恶魔地狱

lemonly14 avatar Jun 23 '24 10:06 lemonly14