InterGCN-ABSA

InterGCN-ABSA copied to clipboard

Reame
Issues

关于数据集数量的问题

Open KokiaY opened this issue 3 years ago • 2 comments

您好，想请求一个问题：论文里的rest15的训练集和测试集分别是1610和802条，而代码里con_datasets目录下rest15的训练集和测试集分别是1204,542条（除了lap14和rest14实际与论文的一致，rest15和rest16对应论文数据条数都不一致）？？？

Jul 22 '22 14:07 KokiaY

您好，想请求一个问题：论文里的rest15的训练集和测试集分别是1610和802条，而代码里con_datasets目录下rest15的训练集和测试集分别是1204,542条（除了lap14和rest14实际与论文的一致，rest15和rest16对应论文数据条数都不一致）？？？

您好，我们的数据来自参考文献的开源代码，在预处理的时候和以往的工作一致，去除了conflict的样本，例如在一句话中，同一个aspect对应了多个标签。可能是这个预处理导致实际数据量跟原数据集的数据量有差异。您也可以用源数据集直接跑我们的代码，无需做额外处理的。

Nov 13 '22 17:11 BinLiang-NLP

明白，非常非常感谢作者的回复和指点。

------------------ 原始邮件 ------------------ 发件人: "Bin Liang (梁 @.>; 发送时间: 2022年11月14日(星期一) 凌晨1:58 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [BinLiang-NLP/InterGCN-ABSA] 关于数据集数量的问题 (Issue #12)

您好，想请求一个问题：论文里的rest15的训练集和测试集分别是1610和802条，而代码里con_datasets目录下rest15的训练集和测试集分别是1204,542条（除了lap14和rest14实际与论文的一致，rest15和rest16对应论文数据条数都不一致）？？？

您好，我们的数据来自参考文献的开源代码，在预处理的时候和以往的工作一致，去除了conflict的样本，例如在一句话中，同一个aspect对应了多个标签。可能是这个预处理导致实际数据量跟原数据集的数据量有差异。您也可以用源数据集直接跑我们的代码，无需做额外处理的。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Nov 14 '22 04:11 KokiaY