BenfengXu

[email protected]

Beijing PhD Candidate@USTC

Results 17 comments of


                                            BenfengXu

关于两种Transformation：Biaffine和Decomposed Linear的疑惑点

这个工作的动机是，针对文档级复杂文本这一场景，我们希望能够引入实体分布的结构这一先验，来帮助模型更好地理解实体及其之间的关系。从这个角度来看，SSAN是相对通用的思想，对于带有结构化先验的内容的理解应该都会有一定的帮助。

关于两种Transformation：Biaffine和Decomposed Linear的疑惑点

> 感谢你的回答，我还有一个问题想请教一下，Biaffine和Decomposed Linear这两种转换模型具体有何区别？动机和基本的设计思想是一致的，只是具体的网络结构不同，分别采用了Biaffine变换和分解线性变换来具体实现对dependency的建模，二者最终的目的是一致的，也都以同样的方式融入Tranformer的Self Attention基本Block 中。

关于两种Transformation：Biaffine和Decomposed Linear的疑惑点

> Can you show me where the code of the transformation module is located?? (Biaffine Transformation, Decomposed Linear Transformation) please refer to [https://github.com/BenfengXu/SSAN/blob/main/model/modeling_bert.py#L267-L280](url) as the README indicated.

模型结构和加载预训练模型时候不太懂

> 你好，模型编码层中是根据sij选的不同的参数，做q*k的时候加的偏置不同吗？还有加载预训练模型的时候是对bert或robert结构相同的对应的部分加载参数了吗，想不到如何加载预训练模型的？还有模型中用的结构的依赖是两个相邻的句子间的实体结构依赖吗？谢谢您的回答！ 1.是的，根据s_ij来选取对应的网络参数 2.BERT / RoBERTa本来的模型部分是仍然保留的，这部分会自动load，新增的Transformation module没有对应的Pretrained参数，所以是重新初始化的 3.结构的依赖具体（启发式地）引入了几种，可参考论文中关于S, s_ij的描述，既有同一句子内的，也有相邻句子间的，也有共指mention间的

Can you share the code about CDR and GDA datasets ? Thank you!

I've replied this question in [here](https://github.com/BenfengXu/SSAN/issues/4#issuecomment-864699668), thanks~

关于复现结果的问题

感谢关注我们的工作，论文中的实验是通过标准的BERT进行的，请首先检查pytorch和transformers的依赖版本，因为代码的实现比较早，所以对应的版本也比较老了，另外，请检查bert的checkpoint文件是否相匹配（对应transformers==2.7）。以下两个issue有相应的md5值，可供参考： https://github.com/BenfengXu/SSAN/issues/8 https://github.com/BenfengXu/SSAN/issues/7

Success with OPT-175B

Congratulations! May I ask the specific configuration of your DGX station? Is it 8XA100 (40GB) or (80GB)?

‹
1
2