FlagEmbedding
FlagEmbedding copied to clipboard
Activation Beacon 训练效率及位置编码问题
祝贺你们做出了如此杰出的工作,我对这篇论文很感兴趣,在阅读论文之后有一些问题不知道能否解答?
- 在self-attn模块中,由于第二个chunk依赖于第一个chunk生成的beacon,这是否会导致无法并行训练?即是否需要按顺序依次计算每个chunk?而不能像传统架构中那样并行计算?这似乎使得训练时,每个attention模块的计算延迟与chunk数量相关?当然这在推理解码过程中是没问题的。
- 在插入beacon之后,计算第二个chunk时, $\langle b \rangle^2_1$ 的存在是否会导致影响 $x^2_2$ 与 $x^2_3$ 的相对位置(增加了1)?另外 $\langle b \rangle^1_1$ 与 $\langle b \rangle^1_2$ 的位置关系在第一个chunk和第二个chunk计算过程中的位置关系似乎也改变了?不知道这种细节是否会对模型性能有影响?