Activation Beacon 训练效率及位置编码问题

Open xiazhuo opened this issue 5 months ago • 0 comments

祝贺你们做出了如此杰出的工作，我对这篇论文很感兴趣，在阅读论文之后有一些问题不知道能否解答？

在self-attn模块中，由于第二个chunk依赖于第一个chunk生成的beacon，这是否会导致无法并行训练？即是否需要按顺序依次计算每个chunk？而不能像传统架构中那样并行计算？这似乎使得训练时，每个attention模块的计算延迟与chunk数量相关？当然这在推理解码过程中是没问题的。
在插入beacon之后，计算第二个chunk时， $\langle b \rangle^2_1$ 的存在是否会导致影响 $x^2_2$ 与 $x^2_3$ 的相对位置（增加了1）？另外 $\langle b \rangle^1_1$ 与 $\langle b \rangle^1_2$ 的位置关系在第一个chunk和第二个chunk计算过程中的位置关系似乎也改变了？不知道这种细节是否会对模型性能有影响？

Aug 11 '25 11:08 xiazhuo