[BUG]字数较少时,生成的音频内容存在问题
在linux部署了docker,通过WebUI 推理时,同样一份音频,我输入8个字左右的时候,生成结果较为随机,会混入一些不属于我输入的文字内容,或者读完文字后出现较长的空白内容。但是当我输入较多字数的时候这个问题就没有出现了,请问这是正常的吗?
目前的步骤是
- 点击Reference Audio,然后勾选启用参考音频
- 上传一份20秒的游戏角色的音频文件,并输入音频文件的文字内容
又测试了一下,短句在我加了句号后,能够解决生成内容混入不属于我输入的文字内容的问题。
加了句号任然会有不小的概率出现无意义的语音。比如:好的。你多抽几次卡就可能会出现。
加了句号任然会有不小的概率出现无意义的语音。比如:好的。你多抽几次卡就可能会出现。
确实,后面多测了几次,还是会出现,只能说比原来好一些了。新版本在生成的时候随机性确实是个问题。
短句可能出现幻觉,不建议生成过短音频。
可以试一下调一调参数。我在测试时总出现后半句是静音或者只生成半句的问题,将repetition_penalty参数从默认的1.5调到1.2就好了。出现幻觉,可以试试调整temperature有没有效果。
#515 Change title to English.
短句合成音频混乱,请问解决了吗?