fish-speech icon indicating copy to clipboard operation
fish-speech copied to clipboard

[Feature]How can I specify that characters are silent and that pinyin or English words are read automatically?

Open xeoshow opened this issue 1 year ago • 4 comments

下面生成的语音,破折号念成了 减号,NAYA没有拼读,而是按四个字母依次念。使用的音色是 美食与美景(RuoFei Ma)。 可以做什么配置,使得 指定字符不发声,及自动念拼音或英文单词吗?谢谢

https://fish.audio/text-to-speech/?modelId=d6bba7321f784eada1935dfc51f191bb&taskId=adac4c0e012943068484da9e00019845

对应文字:

在这个充满活力的城市中,隐藏着一家让人难以忘怀的泰式餐厅——NAYA泰菜。位于前海人寿附近的这家餐馆,以其地道的风味和热情的服务,吸引了无数食客前来品尝。正值周末,美食博主陈琳迎来了她的生日,她选择在这里与朋友们庆祝,度过了一个难忘的夜晚。

xeoshow avatar Aug 23 '24 12:08 xeoshow

训练数据中包含该类数据较少,需要多次抽卡,如果效果依然不满意可以自行微调。

PoTaTo-Mika avatar Aug 26 '24 04:08 PoTaTo-Mika

谢谢回复。另外还有个问题,就是下面的文字,变成语音后,会念成"三零年",而不是"三十年":

这里由拥有30年运营经验的吴院长领航

xeoshow avatar Aug 28 '24 04:08 xeoshow

#515 Change title to English.

Stardust-minus avatar Sep 08 '24 08:09 Stardust-minus

谢谢回复。另外还有个问题,就是下面的文字,变成语音后,会念成"三零年",而不是"三十年":

这里由拥有30年运营经验的吴院长领航

最好自行设计文本替换规则

AnyaCoder avatar Sep 14 '24 15:09 AnyaCoder

我应该如何在像阿拉伯语或波斯语这样的 Unicode 语言中进行微调,因为这些语言在停顿、或字符的阅读速度方面有更多的限制?

另外,如何调整它以在你自己的案例中优化 TTS(语音合成)效果?除了这个仓库的文档之外,你是否有其他相关的指导? @xeoshow

cod3r0k avatar Jan 24 '25 10:01 cod3r0k

Do you have any update @Whale-Dolphin @AnyaCoder

cod3r0k avatar Mar 18 '25 10:03 cod3r0k

fishaudio的动作感觉比较慢,已经有好几个新的开源起来了,效果也非常不错,刷到的可以了解下: https://huggingface.co/hexgrad/Kokoro-82M https://huggingface.co/sesame/csm-1b

xeoshow avatar Mar 27 '25 06:03 xeoshow

We have some inner updates, but we have no plans to make them open-source so far.

Whale-Dolphin avatar Mar 27 '25 06:03 Whale-Dolphin

fishaudio的动作感觉比较慢,已经有好几个新的开源起来了,效果也非常不错,刷到的可以了解下: https://huggingface.co/hexgrad/Kokoro-82M https://huggingface.co/sesame/csm-1b

并非义务开源

PoTaTo-Mika avatar Mar 27 '25 06:03 PoTaTo-Mika

完全理解

xeoshow avatar Mar 27 '25 06:03 xeoshow