fish-speech
fish-speech copied to clipboard
[Feature] some idea for support chinese dialect
前提 我看了介绍,目前的体系是不基于音素的,直接用文字会导致一些非 常用字 于样本上无法覆盖
方案 我的想法是,目前的大部分方言都有拼音方案,而且想要支持方言的人大部分也比较了解方言拼音。
可以增加一个叫"方言"的语音选项,样本标注文本就填拼音就好,每个字的拼音直接用空格分隔就好,和英文单词的分割一样,非常好处理。这样就可以支持所有的汉语方言。个人去改代码添加语言支持也是很麻烦的事,可能会漏掉很多需要修改的地方。
考虑到常用汉字都好几千,正常文本用到的至少7000+,还有多音字的处理等等麻烦事;而实际上绝大部分汉语方言,带声调的音节数量,总共最多也就2000,甚至北方方言一般1000以下。这是用拼音相对于用汉字的好处。
如此,需要的语音样本数量将非常少,就能覆盖全部音节。
此外,方言训练本身最大的问题就是获取语音样本困难,除了粤语,其它语言很难获取到足够的语音样本数据。如果所需要的样本少,甚至可以自己录制就够了。现在开源社区中,也已经有了一些方言输入法,个人想办法把汉字转成方言拼音也是比较简单的。
以上