BenfengXu
BenfengXu
这个工作的动机是,针对文档级复杂文本这一场景,我们希望能够引入实体分布的结构这一先验,来帮助模型更好地理解实体及其之间的关系。 从这个角度来看,SSAN是相对通用的思想,对于带有结构化先验的内容的理解应该都会有一定的帮助。
> 感谢你的回答,我还有一个问题想请教一下,Biaffine和Decomposed Linear这两种转换模型具体有何区别? 动机和基本的设计思想是一致的,只是具体的网络结构不同,分别采用了Biaffine变换和分解线性变换来具体实现对dependency的建模,二者最终的目的是一致的,也都以同样的方式融入Tranformer的Self Attention基本Block 中。
> Can you show me where the code of the transformation module is located?? (Biaffine Transformation, Decomposed Linear Transformation) please refer to [https://github.com/BenfengXu/SSAN/blob/main/model/modeling_bert.py#L267-L280](url) as the README indicated.
> 你好,模型编码层中是根据sij选的不同的参数,做q*k的时候加的偏置不同吗?还有加载预训练模型的时候是对bert或robert结构相同的对应的部分加载参数了吗,想不到如何加载预训练模型的?还有模型中用的结构的依赖是两个相邻的句子间的实体结构依赖吗?谢谢您的回答! 1.是的,根据s_ij来选取对应的网络参数 2.BERT / RoBERTa本来的模型部分是仍然保留的,这部分会自动load,新增的Transformation module没有对应的Pretrained参数,所以是重新初始化的 3.结构的依赖具体(启发式地)引入了几种,可参考论文中关于S, s_ij的描述,既有同一句子内的,也有相邻句子间的,也有共指mention间的
I've replied this question in [here](https://github.com/BenfengXu/SSAN/issues/4#issuecomment-864699668), thanks~
感谢关注我们的工作,论文中的实验是通过标准的BERT进行的,请首先检查pytorch和transformers的依赖版本,因为代码的实现比较早,所以对应的版本也比较老了,另外,请检查bert的checkpoint文件是否相匹配(对应transformers==2.7)。 以下两个issue有相应的md5值,可供参考: https://github.com/BenfengXu/SSAN/issues/8 https://github.com/BenfengXu/SSAN/issues/7
Congratulations! May I ask the specific configuration of your DGX station? Is it 8XA100 (40GB) or (80GB)?