XLXW comments

Results 6 comments of


                                            XLXW

在训练BERT时， Loss突然增大且模型无法继续学习

> 模型用的哪个配置呢？可能是lr太大我尝试一下用更小的lr再试一下，谢谢您的回复！

你好，你指出的这些问题是存在的。由于语料分成了多个块交给了不同的标注员完成，且我们的程序在预处理的时候会根据解析预生成推荐的答案（可见标注手册部分），因此部分标注员会因为不仔细等原因可能直接按照推荐答案认证作为了最终答案。但是由于这些有问题的样本在整个语料库中占比不会太大，因此建议直接对MOD和INS的操作进行简单的清洗，如当需要插入或修改非常多Token（例如8个以上）的时候，基本上这个操作/例子（如果其只有这种改法）可以被忽略。非常感谢你的反馈，我们之后等有时间的时候会再对语料进行检查，来改正这部分的数据。

数据集里面很多打标是错误的，这是怎么回事啊？

> 还有这个 [联合国安理会昨日通过给了英国和美国一个关键的训；搭配不当，扩裁象，扩大制裁对象，中方对决议投了赞成票并作了有关说明] 非常感谢提供错误样本，我们已经记录，之后会一起更新！

数据集里面很多打标是错误的，这是怎么回事啊？

> > 你好， > > 你指出的这些问题是存在的。由于语料分成了多个块交给了不同的标注员完成，且我们的程序在预处理的时候会根据解析预生成推荐的答案（可见标注手册部分），因此部分标注员会因为不仔细等原因可能直接按照推荐答案认证作为了最终答案。 > > 但是由于这些有问题的样本在整个语料库中占比不会太大，因此建议直接对MOD和INS的操作进行简单的清洗，如当需要插入或修改非常多Token（例如8个以上）的时候，基本上这个操作/例子（如果其只有这种改法）可以被忽略。 > > 非常感谢你的反馈，我们之后等有时间的时候会再对语料进行检查，来改正这部分的数据。 > > 感谢回复，在[convert_seq2seq_to_operation.py]这个脚本文件中，可以注意到其实数据集中是有很多原始句子与目标句子长度不同的，但是操作还是先switch再进行其他operation的，但是在这个脚本文件中发现只有原始句子与目标句子长度一致，才会进行switch标签的生成，所以想请教一下，类似于这种是人工标注的么？是的，这个脚本只是用于方便简单的标签转换，因此没有考虑非等长（多操作）的情况。在我们实际工作流程中的数据都是依靠手工标注的（这个脚本只用于从答案解析中产生预标注的标签供标注员参考）。由于我们的标注工具是个图形界面[`Annotation Handbook.pdf`(第10页)](https://github.com/xlxwalex/FCGEC/blob/main/document/Annotation%20Handbook.pdf)，所以标注员可以通过鼠标对文字或者文字片段的拖动产生Switch标签。

XLXW

请问一般BERT预训练的acc_mlm大概训练完后能到多少

在训练BERT时， Loss突然增大且模型无法继续学习

在训练BERT时， Loss突然增大且模型无法继续学习

数据集里面很多打标是错误的，这是怎么回事啊？

数据集里面很多打标是错误的，这是怎么回事啊？

数据集里面很多打标是错误的，这是怎么回事啊？