NRE icon indicating copy to clipboard operation
NRE copied to clipboard

关于数据的问题

Open twjiang opened this issue 7 years ago • 5 comments

您论文里提到训练集有522611句子、测试集有172448句子。但在您发布的data.zip文件中测试集行数为172448,但句子去重后为61707;训练集行数为570088,句子去重后为368099,即使句子+实体对+关系联合再去重后也是510415,而非522611。

请问是哪里出了问题?您论文中的“句子数量”指的是什么?

twjiang avatar Dec 18 '17 08:12 twjiang

你好,句子个数即为数据个数,如测试集行数为172448,即有172448个句子。另外,训练时我将和测试集中entity pair重复的部分去掉了得到的522611个训练样例。

Mrlyk423 avatar Dec 19 '17 02:12 Mrlyk423

好的,了解了,感谢! 但是为什么会存在和测试集数据重复的情况,hold-out的方法应该使得测试集与训练集都是覆盖没有交集的entity-pair? 另外,训练集中为何存在完全相同的行(实体对、关系、句子都完全相同)?即自身重复的数据。 完全去重后感觉训练集并不能达到522611。 不知是我哪里理解错了?

twjiang avatar Dec 19 '17 08:12 twjiang

关于完全相同的行不太清楚,我是根据NYT10那份数据直接处理得到。

Mrlyk423 avatar Dec 20 '17 10:12 Mrlyk423

请问可以公布一下处理数据的源码吗?

weilonghu avatar Apr 18 '18 13:04 weilonghu

训练时我将和测试集中entity pair重复的部分去掉了得到的522611个训练样例。

Can you plese share the processed data

many thanks

karlhugle avatar Aug 08 '18 14:08 karlhugle