bert4keras icon indicating copy to clipboard operation
bert4keras copied to clipboard

"同步使用last_token方法,可以获得一定程度上的加速"指的是什么?

Open charlesfufu opened this issue 3 years ago • 1 comments

self.last_token方法指的是什么?

charlesfufu avatar Nov 02 '21 15:11 charlesfufu

decoder部分由于三角mask的存在、t时刻(包括t)后的token对于t时刻前的计算没有影响(softmax时被-inf mask了,attention score始终为0)、所以只需要输出t时刻生成的token对之前所有生成token的attention就可以、decoder只需要输出“last_token”、append在之前的输出后就足够了、(实际上,decoder应该可以优化成增量的attention计算、缓存之前的结果、每层只要计算dim*1就足够了)

i4never avatar Nov 11 '21 07:11 i4never