KamioRinn

Results 8 issues of KamioRinn

Sometime "is_hp3" doesn't work. And the output position is incorrect.

尝试使用阿里KAN-TTS的前端TTSRFD处理文本,需要引入 install ttsfrd==0.2.1 -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html 该前端可以处理 %百分号在文本里会导致error不能推理 还有 元/吨 会读成 元吨 而不是元每吨这类问题 兼容性: 1、该前端中文处理可以直接处理中英混合,所以将项目中英混合部分进行了调整,使中英混合部分更加连贯。但该前端无法处理日英混合,会输出像英语又像日语的奇怪英文,继续使用日英切分进行处理。 2、该前端闭源,只支持直接输出处理后的音素,阿里的音素与本项目模型音素存在部分细分不同,直接做了chinese_dict、english_dict、japanese_dict对差异音素进行转换,中文部分几个音不确定转换是否准确,需要更多测试。 3、该前端可以将 ”元/吨“ 处理为 ”元每吨“,”xx/kg"处理为“xx每公斤”,但无法输出处理后的文字,只有音素,导致无法使用get_bert_feature(norm_text和word2ph对应不上),此处直接先像英语日语一样处理。 其他: LangSegment.getTexts需要标点符号加持才能分割中日,类似“マクドナルド是麦当劳”这样一整句它都会直接输出“ja”“マクドナルド是麦当劳”。只有“マクドナルド,是麦当劳”才能准确分割出中日两段。可能需要做优化。

新增内容: 1. 使用g2pw进行多音字推理。[g2pW](https://github.com/GitYCC/g2pW) 2. 修改自: PaddleSpeech的g2pw实现[PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech) https://github.com/GitYCC/g2pW/issues/17#issuecomment-1261802805 pypinyin的g2pw实现[pypinyin-g2pW](https://github.com/mozillazg/pypinyin-g2pW) 注意事项: 1. 若g2pw推理出现问题,可使用环境变量is_g2pw=False切换回pypinyin 2. g2pw模型使用PaddleSpeech针对普通话优化版[G2PWModel](https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip),非台湾话原版。支持自动下载模型到pretrained models 3. 需安装OpenCC包 4. 之前多音字训练歪了的模型可能需要重新训练纠正,否则在推理时可能偶发念错

修复因二次格式化中文将多个句号浓缩为省略号的问题。 修复按标点符号切分时可能引发的错误

1、中文前端处理时保留省略号作为停顿符 2、中文前端处理时遇到``` 数字+(单位) ~ 数字+(单位) ```时候将”~“读为”至“,其他时候作为停顿符

改动较大,多来几个小伙伴帮忙测试下啦

新增以下映射关系 ```python '+': '加', '-': '减', '×': '乘', '÷': '除', '=': '等于 ```

[pypyinyin.txt](https://github.com/mozillazg/phrase-pinyin-data/files/14588942/pypyinyin.txt) 在处理词组发音的时候抓取了网络汉语词典,与本项目词库匹配后存在部分差异,仅供参考使用