fish-speech icon indicating copy to clipboard operation
fish-speech copied to clipboard

[BUG]字数较少时,生成的音频内容存在问题

Open Itsuka-Xx opened this issue 1 year ago • 4 comments

在linux部署了docker,通过WebUI 推理时,同样一份音频,我输入8个字左右的时候,生成结果较为随机,会混入一些不属于我输入的文字内容,或者读完文字后出现较长的空白内容。但是当我输入较多字数的时候这个问题就没有出现了,请问这是正常的吗?

目前的步骤是

  1. 点击Reference Audio,然后勾选启用参考音频
  2. 上传一份20秒的游戏角色的音频文件,并输入音频文件的文字内容

Itsuka-Xx avatar Aug 06 '24 16:08 Itsuka-Xx

又测试了一下,短句在我加了句号后,能够解决生成内容混入不属于我输入的文字内容的问题。

Itsuka-Xx avatar Aug 07 '24 06:08 Itsuka-Xx

加了句号任然会有不小的概率出现无意义的语音。比如:好的。你多抽几次卡就可能会出现。

ouyang-yuxuan avatar Aug 08 '24 09:08 ouyang-yuxuan

加了句号任然会有不小的概率出现无意义的语音。比如:好的。你多抽几次卡就可能会出现。

确实,后面多测了几次,还是会出现,只能说比原来好一些了。新版本在生成的时候随机性确实是个问题。

Itsuka-Xx avatar Aug 08 '24 10:08 Itsuka-Xx

短句可能出现幻觉,不建议生成过短音频。

PoTaTo-Mika avatar Aug 09 '24 03:08 PoTaTo-Mika

可以试一下调一调参数。我在测试时总出现后半句是静音或者只生成半句的问题,将repetition_penalty参数从默认的1.5调到1.2就好了。出现幻觉,可以试试调整temperature有没有效果。

LeLiu avatar Aug 25 '24 14:08 LeLiu

#515 Change title to English.

Stardust-minus avatar Sep 08 '24 08:09 Stardust-minus

短句合成音频混乱,请问解决了吗?

lokvke avatar Sep 27 '24 01:09 lokvke