MuCGEC icon indicating copy to clipboard operation
MuCGEC copied to clipboard

MuCGEC中文纠错数据集及文本纠错SOTA模型开源;Code & Data for our NAACL 2022 Paper "MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction"

Results 13 MuCGEC issues
Sort by recently updated
recently updated
newest added

想问下,http://139.224.234.18:5002/ ,这个 demo 中的【语法纠错(母语)】接口,是以下哪种策略? 1)直接调用 seq2edit 模型;2)直接调用 seq2seq 模型;3)seq2edit + seq2seq 做 merge;4)seq2edit + seq2seq + 规则

看到作者在跑英文的结果时,有用到NUCLE数据集,但是NUCLE官网申请一直500,获取不到数据集,想请问作者是从哪得到这份数据的呀?感谢!

你好, 看TODO list上说有在基于fairseq重写seq2seq,请问这部分工作还会继续跟进吗? 我们使用当前版本的seq2seq训练的模型误纠有点多,和seq2edit的precision相比差好多,recall差不多在同一水平,不过两者融合后可以降一些误纠,请问还有其他的思路在保证TP不降很多的情况下降低误纠吗?谢谢~ 祝工作顺利~

2023.1.12 我们在阿里巴巴魔搭社区开源了两个最新的SOTA纠错模型(基于BART),分别面向[通用领域](https://modelscope.cn/models/damo/nlp_bart_text-error-correction_chinese/summary)和[法律领域](https://modelscope.cn/models/damo/nlp_bart_text-error-correction_chinese-law/summary),支持一键调用推理和Demo试玩,欢迎大家试用:通用领域,法律领域。 如何使用transformer加载该类模型?

你好,训练完的seq2seq纠错模型似乎只能纠错,不能判断正确的句子。原本正确的句子也会被进行纠错修改。这是什么原因造成的呢,是因为没有添加正样本吗?不过后来我又加了正样本,大概占总样本的35%,但还是没办法判别原句是否正确,而是统一按错句处理 ,请问这个应该怎么解决呢

您好,我自己用Transformer架构复现了一个Seq2Edit, 目前仅支持单轮纠正,但是我在训练的时候发现nonkeep标签正确率挺低的,我检查了输入,labels, d_tags都是和原文代码一致的。我觉得很有可能是训练过程中的问题,原文的代码训练过程在Allennlp的高度封装之下,我担心因为训练设置的不同导致性能没那么好。(在自己的数据集上训练,原文代码能达到80%多,但是我自己复现的只有30%多)

seq2seq的predict.py tokenizer的时候已经设置了max_len 和padding,为什么下面还需要再进一步的判断是否超过100。是否有特殊情况? ![image](https://github.com/HillZhang1999/MuCGEC/assets/45008206/374769a0-5273-48f3-b2c6-6758959e0e96)

readme中提到编辑动作标签包括替换、删除、插入、调序等,但实际处理的结果似乎只有替换、删除、插入和$KEEP

作者你好,我在训练过程中 labels_accuracy_except_keep: 0.0000, 这个指标,跑着跑着就变成0了,请问这个有可能是什么原因导致的呢? 第一阶段还好,都是到了第二阶段慢慢就出现了。