Tong Zhu (朱桐) comments

Results 45 comments of


                                            Tong Zhu (朱桐)

论文中的一个问题

嗨您好，感谢您对我们工作的关注~ 由于组合中的某个伪触发词可能缺失，因此在BK算法解码后，还可能会残留只有一个伪触发词的组合。这部分组合是一种特殊情况，需要单独纳入考量。可以结合代码进一步理解： https://github.com/Spico197/DocEE/blob/a32b6f8bf0b2fe28b9942b0b53eff461abf561ba/dee/modules/adj_decoding.py#L241-L249

论文中的一个问题

嗨，抱歉回复晚了。这里`self_loop`是指：是否区分自环。如果不区分（默认），那么就将主对角线全部置1了

请问老师怎么在自己的数据集上进行训练呢？

嗨您好，感谢对本项目的关注。您需要先在`dee/event_types`里准备自己的event template，然后再参考readme中的方法跑实验：https://github.com/Spico197/DocEE?tab=readme-ov-file#to-reproduce-results-in-paper

请问老师怎么在自己的数据集上进行训练呢？

- importance 和伪trigger需要通过 https://github.com/Spico197/DocEE/blob/main/Data/trigger.py 来搞定。 - 需要实验看看。事件类型越少，对于模型来说越简单。

请问老师怎么在自己的数据集上进行训练呢？

看起来比较奇怪，cls和ent都是100%正确，但是combination差了好多。试试ProcNet吧：https://github.com/xnyuwg/procnet

请问老师怎么在自己的数据集上进行训练呢？

可能数据量太少过拟合了。最佳F1指的是dev上的结果吗？

请问老师怎么在自己的数据集上进行训练呢？

> 感谢老师分享。cls是100的原因可能是我最后一个事件类型，所以分类的准确率很高。我也观察了模型输出的json文件，无论是单事件还是多事件的combination的F1得分都很低。由于我的数据集是篇章级别的，所以句子数比较多，但是实体数相对较少，可能会出现连续好几个句子没有实体的情况。并且虽然句子数量很多但是事件数量很少。请问老师这可能会是combination很低的一个原因吗？之前邮件发送的回复，在github页面上没显示，这里补个档： 1. 嗷嗷了解。如果没有负例的话分类100%正确挺正常的 2. 组合的部分，计算邻接矩阵时是只有实体参与计算的。如果实体也能100%正确，这个结果还挺奇怪的。你是划分了训练开发测试集的吗，可以比较下训练过程中dev和test结果的变化，看看是不是过拟合了

请问老师怎么在自己的数据集上进行训练呢？

> 老师，对于《Joint Document-Level Event Extraction via Token-Token Bidirectional Event Completed Graph》这篇论文，论文在ChFinAnn上和Duee-Fin上的F1都出其的好。我也在原作者的github上看到了老师您的评论，请问老师这篇论文的F1与Doc2EDAG中定义的F1是不是不同？嗯啊，根据作者在issue区的回复和论文中的说明，两个metrics不相同。

关于ptpcg论文的一些问题

嗨您好，感谢您对本工作的关注。 1. 这里不是对称矩阵。剪枝完全图是有向图，所以需要区分方向。 2. 不是所有records都满足，因为有些事件实例中的某些要素角色并没有具体的要素与之对应。简单来说就是缺少事件要素，比如文本中可能没有出现具体的“质押金额”。

关于ptpcg论文的一些问题

1. 参数是不一样的，一个是 $W_s$ ，一个是 $W_e$ 2. 这里的 $\mathcal{R}$ 不是指所有的要素角色，而是想要判断为伪触发词的事件角色候选集合，比如 “破产清算”的要素角色为：["公司名称", "公告时间", "受理法院", "裁定时间", "公司行业"]，首先找一个候选集合["公司名称", "公告时间", "受理法院"]作为伪触发词组候选，计算existence，就可以计算这三个角色对应的要素是否同时存在/不存在。它们都不出现的时候，其它两个角色["裁定时间", "公司行业"]会有对应的要素的，所以record仍然存在