GPT-SoVITS
GPT-SoVITS copied to clipboard
Use TTSFRD process text
尝试使用阿里KAN-TTS的前端TTSRFD处理文本,需要引入 install ttsfrd==0.2.1 -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html 该前端可以处理 %百分号在文本里会导致error不能推理 还有 元/吨 会读成 元吨 而不是元每吨这类问题
兼容性: 1、该前端中文处理可以直接处理中英混合,所以将项目中英混合部分进行了调整,使中英混合部分更加连贯。但该前端无法处理日英混合,会输出像英语又像日语的奇怪英文,继续使用日英切分进行处理。 2、该前端闭源,只支持直接输出处理后的音素,阿里的音素与本项目模型音素存在部分细分不同,直接做了chinese_dict、english_dict、japanese_dict对差异音素进行转换,中文部分几个音不确定转换是否准确,需要更多测试。 3、该前端可以将 ”元/吨“ 处理为 ”元每吨“,”xx/kg"处理为“xx每公斤”,但无法输出处理后的文字,只有音素,导致无法使用get_bert_feature(norm_text和word2ph对应不上),此处直接先像英语日语一样处理。
其他: LangSegment.getTexts需要标点符号加持才能分割中日,类似“マクドナルド是麦当劳”这样一整句它都会直接输出“ja”“マクドナルド是麦当劳”。只有“マクドナルド,是麦当劳”才能准确分割出中日两段。可能需要做优化。
该前端日语支持音调信息,但项目模型还不支持,已做忽略处理。
bert中文留空虽然能用但是效果是会下降的
bert中文留空虽然能用但是效果是会下降的
是的,这个问题比较麻烦。
bert中文留空虽然能用但是效果是会下降的
提了另一个PR,先用飞浆的NSW前端处理下中文的非标准表达吧。那个可以直接输出处理后的标准化文字。阿里这个我再看看怎么适配,或者找找其他替代。