Tong Zhu (朱桐)

Results 45 comments of Tong Zhu (朱桐)

嗨您好,感谢您对我们工作的关注~ 由于组合中的某个伪触发词可能缺失,因此在BK算法解码后,还可能会残留只有一个伪触发词的组合。这部分组合是一种特殊情况,需要单独纳入考量。可以结合代码进一步理解: https://github.com/Spico197/DocEE/blob/a32b6f8bf0b2fe28b9942b0b53eff461abf561ba/dee/modules/adj_decoding.py#L241-L249

嗨,抱歉回复晚了。这里`self_loop`是指:是否区分自环。如果不区分(默认),那么就将主对角线全部置1了

嗨您好,感谢对本项目的关注。您需要先在`dee/event_types`里准备自己的event template,然后再参考readme中的方法跑实验:https://github.com/Spico197/DocEE?tab=readme-ov-file#to-reproduce-results-in-paper

- importance 和伪trigger需要通过 https://github.com/Spico197/DocEE/blob/main/Data/trigger.py 来搞定。 - 需要实验看看。事件类型越少,对于模型来说越简单。

看起来比较奇怪,cls和ent都是100%正确,但是combination差了好多。 试试ProcNet吧:https://github.com/xnyuwg/procnet

可能数据量太少过拟合了。最佳F1指的是dev上的结果吗?

> 感谢老师分享。cls是100的原因可能是我最后一个事件类型,所以分类的准确率很高。我也观察了模型输出的json文件,无论是单事件还是多事件的combination的F1得分都很低。由于我的数据集是篇章级别的,所以句子数比较多,但是实体数相对较少,可能会出现连续好几个句子没有实体的情况。并且虽然句子数量很多但是事件数量很少。请问老师这可能会是combination很低的一个原因吗? 之前邮件发送的回复,在github页面上没显示,这里补个档: 1. 嗷嗷了解。如果没有负例的话分类100%正确挺正常的 2. 组合的部分,计算邻接矩阵时是只有实体参与计算的。如果实体也能100%正确,这个结果还挺奇怪的。你是划分了训练开发测试集的吗,可以比较下训练过程中dev和test结果的变化,看看是不是过拟合了

> 老师,对于《Joint Document-Level Event Extraction via Token-Token Bidirectional Event Completed Graph》这篇论文,论文在ChFinAnn上和Duee-Fin上的F1都出其的好。我也在原作者的github上看到了老师您的评论,请问老师这篇论文的F1与Doc2EDAG中定义的F1是不是不同? 嗯啊,根据作者在issue区的回复和论文中的说明,两个metrics不相同。

嗨您好,感谢您对本工作的关注。 1. 这里不是对称矩阵。剪枝完全图是有向图,所以需要区分方向。 2. 不是所有records都满足,因为有些事件实例中的某些要素角色并没有具体的要素与之对应。简单来说就是缺少事件要素,比如文本中可能没有出现具体的“质押金额”。

1. 参数是不一样的,一个是 $W_s$ ,一个是 $W_e$ 2. 这里的 $\mathcal{R}$ 不是指所有的要素角色,而是想要判断为伪触发词的事件角色候选集合,比如 “破产清算”的要素角色为:["公司名称", "公告时间", "受理法院", "裁定时间", "公司行业"],首先找一个候选集合["公司名称", "公告时间", "受理法院"]作为伪触发词组候选,计算existence,就可以计算这三个角色对应的要素是否同时存在/不存在。它们都不出现的时候,其它两个角色["裁定时间", "公司行业"]会有对应的要素的,所以record仍然存在