InterGCN-ABSA icon indicating copy to clipboard operation
InterGCN-ABSA copied to clipboard

关于数据集数量的问题

Open KokiaY opened this issue 2 years ago • 2 comments

您好,想请求一个问题:论文里的rest15的训练集和测试集分别是1610和802条,而代码里con_datasets目录下rest15的训练集和测试集分别是1204,542条(除了lap14和rest14实际与论文的一致,rest15和rest16对应论文数据条数都不一致)???

KokiaY avatar Jul 22 '22 14:07 KokiaY

您好,想请求一个问题:论文里的rest15的训练集和测试集分别是1610和802条,而代码里con_datasets目录下rest15的训练集和测试集分别是1204,542条(除了lap14和rest14实际与论文的一致,rest15和rest16对应论文数据条数都不一致)???

您好,我们的数据来自参考文献的开源代码,在预处理的时候和以往的工作一致,去除了conflict的样本,例如在一句话中,同一个aspect对应了多个标签。可能是这个预处理导致实际数据量跟原数据集的数据量有差异。您也可以用源数据集直接跑我们的代码,无需做额外处理的。

BinLiang-NLP avatar Nov 13 '22 17:11 BinLiang-NLP

明白,非常非常感谢作者的回复和指点。

------------------ 原始邮件 ------------------ 发件人: "Bin Liang (梁 @.>; 发送时间: 2022年11月14日(星期一) 凌晨1:58 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [BinLiang-NLP/InterGCN-ABSA] 关于数据集数量的问题 (Issue #12)

您好,想请求一个问题:论文里的rest15的训练集和测试集分别是1610和802条,而代码里con_datasets目录下rest15的训练集和测试集分别是1204,542条(除了lap14和rest14实际与论文的一致,rest15和rest16对应论文数据条数都不一致)???

您好,我们的数据来自参考文献的开源代码,在预处理的时候和以往的工作一致,去除了conflict的样本,例如在一句话中,同一个aspect对应了多个标签。可能是这个预处理导致实际数据量跟原数据集的数据量有差异。您也可以用源数据集直接跑我们的代码,无需做额外处理的。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

KokiaY avatar Nov 14 '22 04:11 KokiaY