g2pW
g2pW copied to clipboard
“和”字拼音转成了han4
conv = G2PWConverter(style='pinyin', enable_non_tradional_chinese=True)
conv('我和你') [['wo3', 'han4', 'ni3']]
如上图, 测试发现“和”字拼音转成了han4
同
这个就是台湾话和普通话的区别了,参考 有哪些词语读音在台湾国语和大陆普通话中不同?,PaddleSpeech 中已经针对台湾话和普通话的 diff 对字典进行了修改
@yt605155624 請問具體是怎麼做的?
@GitYCC 我们引入 G2PW 之后,用 csmsc 这个数据集为 GroundTruth 跑了个 G2P 的 WER (参考 examples/other/g2p ), 发现比原本使用 pypinyin 要差,这是不符合预期的,对比 badcase 和上述 zhihu 链接,以及日常生活中知道的一些台湾腔和普通话不一样的点,发现几种情况:
- 个别多音字的发音和普通话不一样
- 台湾话有的字多音字更多
- 个别非多音字发音和普通话不一样
于是,我修改了你们的多音字字典和非多音字字典,修改后的模型和字典在 https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip 可以下载下来和你们原始的字典 diff 一下,并且把某些多音字移出了多音字字典,参考 https://github.com/PaddlePaddle/PaddleSpeech/blob/a657cc3e1b5452cc564c9d3ae4bff25717910a49/paddlespeech/t2s/frontend/g2pw/onnx_api.py#L101
对于不好修改的部分,我们外挂了字典:https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/paddlespeech/t2s/frontend/polyphonic.yaml
目前可能存在的情况:
- 有些多音字发音直接修改是会引发报错或者发音 label 会串,可能是改了你们输出的维度等
- 由于测试 case 不多,会持续根据用户报错来完善字典
Wow~ Great work