PaddleSpeech
PaddleSpeech copied to clipboard
[tts] 基于 BERT 实现语音合成文本前端的停顿预测
简单的序列预测问题,数据集可以用标贝的文本,其实就是判断每个字后面是否有停顿,如果有的话,是 #1
~#4
中的哪一个,是一个 5 分类的序列预测问题
可以把标贝的文本和 aishell3 的文本结合到一起(但是 aishell3 只有两级停顿,需要考虑一下映射)
实在没有停顿数据的,可以用 MFA 的结果(sp 帧数 > 某个值表示长停顿、< 表示短停顿)
参考 example, 标点预测(BERT ERNIE 直接用 PaddleNLP 的模型,trainer 用 PaddleSpeech 提供的模板,自己需要补充的部分很少)
进阶:多任务的 BERT
请问这个功能现在有上线吗?aishell 数据集有使用案例吗?
@sixyang 没有