PaddleSpeech [tts] 基于 BERT 实现语音合成文本前端的多音字预测

[tts] 基于 BERT 实现语音合成文本前端的多音字预测

Open yt605155624 opened this issue 3 years ago • 5 comments

目前的多音字使用 pypinyin 或者 g2pM，精度有限，想做一个基于 BERT (或者 ERNIE) 多音字预测模型，简单来说就是假设某语言有 100 个多音字，每个多音字最多有 3 个发音，那么可以在 BERT 后面接 100 个 3 分类器（简单的 fc 层即可），在预测时，找到对应的分类器进行分类即可。参考论文： tencent_polyphone.pdf

数据可以用 https://github.com/kakaobrain/g2pM 提供的数据

进阶：多任务的 BERT

Jan 06 '22 11:01 yt605155624

但是我发现并没有英语的合成的示例，客观评价paddle在这块的doc 远远不如其他开源，mozilla 和 tensorflow的 TTS 会有明确的文档

Jan 18 '22 09:01 Jzow

ljspeech 和 vctk 都是英文的合成数据集，包含示例

Jan 18 '22 09:01 yt605155624

@yt605155624 非常感谢你的及时回复，我会留意看一下，

Jan 18 '22 09:01 Jzow

基于bert实现语音合成文本前端的多音字预测有代码实现吗？

Jul 29 '22 08:07 GloryRoadWangzh

@GloryRoadWangzh 目前没有，可以参考标点预测来做，基于 paddlenlp，目前有开发者正在把 g2pw 加到我们的前端，是基于 bert 的，所以我们可能就不自己搞多音字预测了 https://github.com/PaddlePaddle/PaddleSpeech/pull/2230

Aug 08 '22 12:08 yt605155624

@yt605155624 请教一下，为什么有了g2pw 就不需要多因子预测了，比如下面的句子能预测对马：

孩子，别吃了，这里的肉脏，走，跟我去太平间

Oct 28 '22 08:10 lucasjinreal

@jinfagang 因为 g2pw 就是一种基于 bert 的多音字预测模型

Nov 18 '22 08:11 yt605155624

PaddleSpeech PaddleSpeech copied to clipboard

[tts] 基于 BERT 实现语音合成文本前端的多音字预测

PaddleSpeech
PaddleSpeech copied to clipboard