P-tuning-v2 icon indicating copy to clipboard operation
P-tuning-v2 copied to clipboard

在复现Ner的Conll2003时 一些关于metric的疑问

Open Luohuarucanxue opened this issue 3 years ago • 1 comments

我在复现PT2在Ner的Conll2003时 数据来源于hugging face根据源代码提供的metric进行计算 roberta-large模型在验证集上返回了95+的f1_score 随后在roberta-large 上进行了全微调 仅3个epoch就超过了本文提供的fine-tuning f1 score baseline 1% . 有些疑问 文章中报告的结果是metric 直接返回的seqeval.metric 的overall_f1吗 还是经过额外的计算 。 能否提供PT2在训练conll2004的数据集原始文件吗 谢谢!

Luohuarucanxue avatar Sep 21 '22 10:09 Luohuarucanxue

@Luohuarucanxue 你好,

NER和SRL任务我们并非使用的Huggingface Dataset自动下载的数据集。请按照我们的README中的说明,可以下载获取CoNLL03和CoNLL04训练用的文件。

参考PaperWithCodes中的结果,似乎目前CoNLL03最高的F1结果也只有94.6。我猜测是Huggingface dataset提供的数据或者脚本有问题。

Xiao9905 avatar Sep 27 '22 16:09 Xiao9905