PaddleSpeech icon indicating copy to clipboard operation
PaddleSpeech copied to clipboard

[tts] 基于 BERT 实现语音合成文本前端的多音字预测

Open yt605155624 opened this issue 3 years ago • 5 comments

目前的多音字使用 pypinyin 或者 g2pM,精度有限,想做一个基于 BERT (或者 ERNIE) 多音字预测模型,简单来说就是假设某语言有 100 个多音字,每个多音字最多有 3 个发音,那么可以在 BERT 后面接 100 个 3 分类器(简单的 fc 层即可),在预测时,找到对应的分类器进行分类即可。 参考论文: tencent_polyphone.pdf

数据可以用 https://github.com/kakaobrain/g2pM 提供的数据

进阶:多任务的 BERT image

yt605155624 avatar Jan 06 '22 11:01 yt605155624

但是我发现 并没有英语的合成的 示例,客观评价paddle在这块的doc 远远不如其他开源,mozilla 和 tensorflow的 TTS 会有明确的文档

Jzow avatar Jan 18 '22 09:01 Jzow

ljspeech 和 vctk 都是英文的合成数据集,包含示例

yt605155624 avatar Jan 18 '22 09:01 yt605155624

@yt605155624 非常感谢你的及时回复,我会留意看一下,

Jzow avatar Jan 18 '22 09:01 Jzow

基于bert实现语音合成文本前端的多音字预测有代码实现吗?

GloryRoadWangzh avatar Jul 29 '22 08:07 GloryRoadWangzh

@GloryRoadWangzh 目前没有,可以参考标点预测来做,基于 paddlenlp,目前有开发者正在把 g2pw 加到我们的前端,是基于 bert 的,所以我们可能就不自己搞多音字预测了 https://github.com/PaddlePaddle/PaddleSpeech/pull/2230

yt605155624 avatar Aug 08 '22 12:08 yt605155624

@yt605155624 请教一下,为什么有了g2pw 就不需要多因子预测了,比如下面的句子能预测对马:

孩子,别吃了,这里的肉脏,走,跟我去太平间

lucasjinreal avatar Oct 28 '22 08:10 lucasjinreal

@jinfagang 因为 g2pw 就是一种基于 bert 的多音字预测模型

yt605155624 avatar Nov 18 '22 08:11 yt605155624