P-tuning-v2
P-tuning-v2 copied to clipboard
在复现Ner的Conll2003时 一些关于metric的疑问
我在复现PT2在Ner的Conll2003时 数据来源于hugging face根据源代码提供的metric进行计算 roberta-large模型在验证集上返回了95+的f1_score 随后在roberta-large 上进行了全微调 仅3个epoch就超过了本文提供的fine-tuning f1 score baseline 1% . 有些疑问 文章中报告的结果是metric 直接返回的seqeval.metric 的overall_f1吗 还是经过额外的计算 。 能否提供PT2在训练conll2004的数据集原始文件吗 谢谢!
@Luohuarucanxue 你好,
NER和SRL任务我们并非使用的Huggingface Dataset自动下载的数据集。请按照我们的README中的说明,可以下载获取CoNLL03和CoNLL04训练用的文件。
参考PaperWithCodes中的结果,似乎目前CoNLL03最高的F1结果也只有94.6。我猜测是Huggingface dataset提供的数据或者脚本有问题。