Self-Attention
Self-Attention copied to clipboard
Transformer的完整实现。详细构建Encoder、Decoder、Self-attention。以实际例子进行展示,有完整的输入、训练、预测过程。可用于学习理解self-attention和Transformer
Results
1
Self-Attention issues
Sort by
recently updated
recently updated
newest added
非常感谢项目所提供的代码,对我理解 Transformer 编码器结构有极大帮助。此次修改是在学习过程中发现的一个小问题,也可能是我对模型结构理解不够深入,如果此处的双重转置有其特定意图,欢迎指正! ### 问题 在原始实现中,Encoder 中对 `PositionalEncoding` 的调用如下所示: ```python enc_outputs = self.pos_emb(enc_outputs.transpose(0, 1)).transpose(0, 1) ```` 该写法默认 `PositionalEncoding` 接收的是 `[seq_len, batch_size, d_model]` 格式的数据,因此进行了两次 transpose。但实际代码中实现的 `PositionalEncoding` 是面向 `[batch_size, seq_len, d_model]`(内部使用了 `[seq_len,...