K-BERT icon indicating copy to clipboard operation
K-BERT copied to clipboard

复现问题

Open Smile-L-up opened this issue 2 years ago • 4 comments

您好,感谢您关于预训练的解答。但在我复现您的成果时碰到两类疑问: 1、msra数据集的复现效果好像不佳,不知道是不是我batch_size设置不够大的原因;另外想问一下msra的测试验证数据集划分为什么是2:1?最后还想问您一下git上提供的数据是完整的么? 2、我尝试让每次的结果都固定,但是即使是您提供的源代码,每次跑的结果仍然是不同的。不知道要怎么解决。期待您的回复。

Smile-L-up avatar Aug 05 '21 07:08 Smile-L-up

请问楼主复现效果大致是什么样的呢?我也有类似问题,直接跑msra或者medicine数据集都达不到预期的F1值,比作者提供的低10%-20%,batch size试了4、8、16,都没有解决,不知道哪里出问题了

Kittyuzu1207 avatar Aug 09 '21 06:08 Kittyuzu1207

楼主复现效果模拟用户的呢?我也有问题,直接msra或者医学数据集都达不到预期的F1值,比作者提供的低10%-20%,批量试了4次、 8、16,都没有解决,不知道哪里出问题了

我倒是没有太注意这个,因为我的目标是精准NER,我希望验证 的是加入了知识对模型好就OK了,完全复现的话,设备不允许,原文使用的Batch_size应该是16,而我最大只能设置10。

Smile-L-up avatar Aug 09 '21 14:08 Smile-L-up

您好,感谢您关于预训练的解答。但在我复现您的成果时碰到两类疑问: 1、msra数据集的复现效果好像不佳,不知道是不是我batch_size设置不够大的原因;另外想问一下msra的测试验证数据集划分为什么是2:1?最后还想问您一下git上提供的数据是完整的么? 2、我尝试让每次的结果都固定,但是即使是您提供的源代码,每次跑的结果仍然是不同的。不知道要怎么解决。期待您的回复。

  1. 直接按照指引执行即可,我刚刚又跑了一遍msra, p=0.952, r=0.957, f1=0.954. msra数据集划分是按照百度ernie 1.0来的.
  2. 可以尝试固定随机种子。

autoliuweijie avatar Aug 18 '21 02:08 autoliuweijie

我也遇见了这个问题,在book-review上差20%,在weibo上又一样...

xianyu-123 avatar Sep 10 '21 05:09 xianyu-123