sunnytju comments

Repositories
Issues
Comments

Results 1 comments of


                                            sunnytju

macbert预训练问题

> > 看下case查原因呗。 > > 1.自有数据一般量小质量高，一般需要补充 https://github.com/shibing624/pycorrector#Dataset 数据，样本量大，模型拟合充分； 2. 查badcase分析下原因，check下样本数据集是否有错误的，有就改下。 3. 如果训练样本少，直接用规则搞更方便。 > > 我这边是客服语音asr转文本后纠错，量比较大，我训练数据train只用了10万条，用阿里的asr和内部的asr数据，用阿里的asr作为label，之前是致用不一致的错误数据作为train，test，vlid数据，现在加入了一致的数据到三个数据集中，170万条数据，错误语句和正确语句比例为7:10 我也是做的asr文本纠错，请问你目前使用macbert纠错后CER有降低吗？方便加微信交流下吗？方便的话请邮箱联系下我哈~