sunnytju

Results 1 comments of sunnytju

> > 看下case查原因呗。 > > 1.自有数据一般量小质量高,一般需要补充 https://github.com/shibing624/pycorrector#Dataset 数据,样本量大,模型拟合充分; 2. 查badcase分析下原因,check下样本数据集是否有错误的,有就改下。 3. 如果训练样本少,直接用规则搞更方便。 > > 我这边是客服语音asr转文本后纠错,量比较大,我训练数据train只用了10万条,用阿里的asr和内部的asr数据,用阿里的asr作为label,之前是致用不一致的错误数据作为train,test,vlid数据,现在加入了一致的数据到三个数据集中,170万条数据,错误语句和正确语句比例为7:10 我也是做的asr文本纠错,请问你目前使用macbert纠错后CER有降低吗?方便加微信交流下吗?方便的话请邮箱联系下我哈~