Tagger
Tagger copied to clipboard
在FFN中的问题
论文中我看到的FFN是FFN(X) = ReLU(XW1)W2,为什么在代码中的_ffn_layer 中的linear 函数里会有tf.nn.convolution?只有_linear_2d 没有卷积函数 其他的都有
3D的输入可以看作1 * 1的卷积,实际上都是线性映射,只是使用convolution避免过多的reshape操作。