g2pW icon indicating copy to clipboard operation
g2pW copied to clipboard

“和”字拼音转成了han4

Open xuchenxing opened this issue 2 years ago • 5 comments

conv = G2PWConverter(style='pinyin', enable_non_tradional_chinese=True)

conv('我和你') [['wo3', 'han4', 'ni3']]

如上图, 测试发现“和”字拼音转成了han4

xuchenxing avatar Sep 26 '22 06:09 xuchenxing

lucasjinreal avatar Sep 28 '22 08:09 lucasjinreal

这个就是台湾话和普通话的区别了,参考 有哪些词语读音在台湾国语和大陆普通话中不同?PaddleSpeech 中已经针对台湾话和普通话的 diff 对字典进行了修改

yt605155624 avatar Sep 29 '22 05:09 yt605155624

@yt605155624 請問具體是怎麼做的?

GitYCC avatar Sep 29 '22 05:09 GitYCC

@GitYCC 我们引入 G2PW 之后,用 csmsc 这个数据集为 GroundTruth 跑了个 G2P 的 WER (参考 examples/other/g2p ), 发现比原本使用 pypinyin 要差,这是不符合预期的,对比 badcase 和上述 zhihu 链接,以及日常生活中知道的一些台湾腔和普通话不一样的点,发现几种情况:

  1. 个别多音字的发音和普通话不一样
  2. 台湾话有的字多音字更多
  3. 个别非多音字发音和普通话不一样

于是,我修改了你们的多音字字典和非多音字字典,修改后的模型和字典在 https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip 可以下载下来和你们原始的字典 diff 一下,并且把某些多音字移出了多音字字典,参考 https://github.com/PaddlePaddle/PaddleSpeech/blob/a657cc3e1b5452cc564c9d3ae4bff25717910a49/paddlespeech/t2s/frontend/g2pw/onnx_api.py#L101

对于不好修改的部分,我们外挂了字典:https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/paddlespeech/t2s/frontend/polyphonic.yaml

目前可能存在的情况:

  1. 有些多音字发音直接修改是会引发报错或者发音 label 会串,可能是改了你们输出的维度等
  2. 由于测试 case 不多,会持续根据用户报错来完善字典

yt605155624 avatar Sep 29 '22 05:09 yt605155624

Wow~ Great work

GitYCC avatar Sep 29 '22 06:09 GitYCC