bert4keras
bert4keras copied to clipboard
"同步使用last_token方法,可以获得一定程度上的加速"指的是什么?
self.last_token方法指的是什么?
decoder部分由于三角mask的存在、t时刻(包括t)后的token对于t时刻前的计算没有影响(softmax时被-inf mask了,attention score始终为0)、所以只需要输出t时刻生成的token对之前所有生成token的attention就可以、decoder只需要输出“last_token”、append在之前的输出后就足够了、(实际上,decoder应该可以优化成增量的attention计算、缓存之前的结果、每层只要计算dim*1就足够了)