"同步使用last_token方法，可以获得一定程度上的加速"指的是什么？

Open charlesfufu opened this issue 4 years ago • 1 comments

self.last_token方法指的是什么？

Nov 02 '21 15:11 charlesfufu

decoder部分由于三角mask的存在、t时刻（包括t）后的token对于t时刻前的计算没有影响（softmax时被-inf mask了，attention score始终为0）、所以只需要输出t时刻生成的token对之前所有生成token的attention就可以、decoder只需要输出“last_token”、append在之前的输出后就足够了、(实际上，decoder应该可以优化成增量的attention计算、缓存之前的结果、每层只要计算dim*1就足够了)

Nov 11 '21 07:11 i4never