FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

Activation Beacon 训练效率及位置编码问题

Open xiazhuo opened this issue 5 months ago • 0 comments

Image

祝贺你们做出了如此杰出的工作,我对这篇论文很感兴趣,在阅读论文之后有一些问题不知道能否解答?

  1. 在self-attn模块中,由于第二个chunk依赖于第一个chunk生成的beacon,这是否会导致无法并行训练?即是否需要按顺序依次计算每个chunk?而不能像传统架构中那样并行计算?这似乎使得训练时,每个attention模块的计算延迟与chunk数量相关?当然这在推理解码过程中是没问题的。
  2. 在插入beacon之后,计算第二个chunk时, $\langle b \rangle^2_1$ 的存在是否会导致影响 $x^2_2$ 与 $x^2_3$ 的相对位置(增加了1)?另外 $\langle b \rangle^1_1$ 与 $\langle b \rangle^1_2$ 的位置关系在第一个chunk和第二个chunk计算过程中的位置关系似乎也改变了?不知道这种细节是否会对模型性能有影响?

xiazhuo avatar Aug 11 '25 11:08 xiazhuo