SSAN
SSAN copied to clipboard
对论文里Transformation Module这一部分不太理解
想请问论文中的意思是说,对于每种类型的依赖,比如intra+coref,inter+relate,文中的意思是说每种类型共享一个神经网络?这边好像分了6种类型,就是这一块总共有6个独立的神经网络?然后根据sij的值来选择,具体使用哪个网络计算?
还有就是这一块里提到的bl,sij,没有看懂是什么意思,具体而言这个值是怎么得出的呢?不是训练得到的?还是人为给六种依赖设置了六个值?
想请问论文中的意思是说,对于每种类型的依赖,比如intra+coref,inter+relate,文中的意思是说每种类型共享一个神经网络?这边好像分了6种类型,就是这一块总共有6个独立的神经网络?然后根据sij的值来选择,具体使用哪个网络计算?
6种类型,除NA外有5种类型,每种都有它自己对应的module,module的结构是一样的,module的参数每个s_ij各不相同,一共有5种,比如矩阵A,网络里一共存储了5个,根据sij来决定具体A的参数是五个中的哪一个。
还有就是这一块里提到的bl,sij,没有看懂是什么意思,具体而言这个值是怎么得出的呢?不是训练得到的?还是人为给六种依赖设置了六个值?
分别随机初始化,然后经过梯度传播,网络训练,学习得到的。和其他的矩阵module是一样的,只不过bl,sij的参数只有一维,即一个数值。