FlatTN icon indicating copy to clipboard operation
FlatTN copied to clipboard

Chinese Text Normalization and Dataset

Results 4 FlatTN issues
Sort by recently updated
recently updated
newest added

您好, 感谢有这样一个研究可以将工程人员从TTS前端的复杂低效工作中解放出来。但是是否有预训练好的模型测试一下效果呢? 因为论文中仅使用了自己设计的3W个句子数据集,且训练,验证,测试集合都出自同一个集,这样的实验结果目前没有太高的工业可用性置信度。我们之前的多音字模型,百万句以上的样本都嫌样本量少了,效果不太理想,何况这个是全部覆盖前端正则化问题的工作呢?虽然使用了BERT这样的预训练的多域先验知识,但是真实效果如何还是想先run一下,测试几个典型的样例试一下。 十分感谢!

yangjie_rich_pretrain_unigram_path = '../embedding/gigaword_chn.all.a2b.uni.ite50.vec' yangjie_rich_pretrain_bigram_path = '../embedding/gigaword_chn.all.a2b.bi.ite50.vec' yangjie_rich_pretrain_word_path = '../embedding/ctb.50d.vec' yangjie_rich_pretrain_char_and_word_path = '../embedding/yangjie_word_char_mix.txt' lk_word_path = '../embedding/sgns.merge.word' 这些文件是怎么得到的?

[5, 7, "DIGIT"] is omitted of id: 4 (the text '2006-07财年,印对尼发展援助达35亿卢比(约合4700万美元),为上一财年的3倍。') in CN_TN_epoch-01-28645_2.jsonl. I don't know whether this is the only one that is omitted in this file. ![C5354A29-1F7A-4770-9188-C656F7C24BEA](https://user-images.githubusercontent.com/55069689/224282613-e0b3109c-e9a5-4d06-8079-ba61f623e1db.png)